論文の概要: Parameter-Inverted Image Pyramid Networks
- arxiv url: http://arxiv.org/abs/2406.04330v2
- Date: Mon, 28 Oct 2024 10:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:00.715927
- Title: Parameter-Inverted Image Pyramid Networks
- Title(参考訳): パラメータ反転画像ピラミッドネットワーク
- Authors: Xizhou Zhu, Xue Yang, Zhaokai Wang, Hao Li, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai,
- Abstract要約: Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.35689698870247
- License:
- Abstract: Image pyramids are commonly used in modern computer vision tasks to obtain multi-scale features for precise understanding of images. However, image pyramids process multiple resolutions of images using the same large-scale model, which requires significant computational cost. To overcome this issue, we propose a novel network architecture known as the Parameter-Inverted Image Pyramid Networks (PIIP). Our core idea is to use models with different parameter sizes to process different resolution levels of the image pyramid, thereby balancing computational efficiency and performance. Specifically, the input to PIIP is a set of multi-scale images, where higher resolution images are processed by smaller networks. We further propose a feature interaction mechanism to allow features of different resolutions to complement each other and effectively integrate information from different spatial scales. Extensive experiments demonstrate that the PIIP achieves superior performance in tasks such as object detection, segmentation, and image classification, compared to traditional image pyramid methods and single-branch networks, while reducing computational cost. Notably, when applying our method on a large-scale vision foundation model InternViT-6B, we improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation. These results validate the effectiveness of the PIIP approach and provide a new technical direction for future vision computing tasks. Our code and models are available at https://github.com/OpenGVLab/PIIP.
- Abstract(参考訳): 画像ピラミッドは、画像の正確な理解のためのマルチスケール特徴を得るために、現代のコンピュータビジョンタスクで一般的に使用される。
しかし、画像ピラミッドは同じ大規模モデルを用いて画像の多重分解能を処理し、計算コストを大幅に削減する。
本稿では,パラメータ変換画像ピラミッドネットワーク(PIIP)と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理し、計算効率と性能のバランスをとることです。
具体的には、PIIPへの入力は、より小さなネットワークで高解像度の画像を処理するマルチスケールイメージの集合である。
さらに,異なる解像度の特徴が相互に補完し,異なる空間スケールからの情報を効果的に統合する機能相互作用機構を提案する。
大規模実験により、PIIPは従来の画像ピラミッド法やシングルブランチネットワークと比較して、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて、計算コストを低減しながら優れた性能を発揮することが示された。
特に,大規模ビジョンファウンデーションモデルであるInternViT-6Bに本手法を適用すると,検出とセグメンテーションにおける性能を1%-2%向上し,元の計算の40%-60%に留まった。
これらの結果はPIIPアプローチの有効性を検証し、将来のビジョンコンピューティングタスクに新たな技術的方向性を提供する。
私たちのコードとモデルはhttps://github.com/OpenGVLab/PIIPで公開されています。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - EPNet: An Efficient Pyramid Network for Enhanced Single-Image
Super-Resolution with Reduced Computational Requirements [12.439807086123983]
シングルイメージ超解像(SISR)は、ディープラーニングの統合によって大幅に進歩した。
本稿では,エッジ分割ピラミッドモジュール (ESPM) とパノラマ特徴抽出モジュール (PFEM) を調和して結合し,既存の手法の限界を克服する,EPNet (Efficient Pyramid Network) を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:56:53Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Large-to-small Image Resolution Asymmetry in Deep Metric Learning [13.81293627340993]
我々は、高速な表現抽出を可能にするために、クエリの軽量処理による非対称なセットアップを小さな画像解像度で探索する。
目標は、大規模な解像度画像を操作するために訓練されたデータベースサンプルのためのネットワークと、きめ細かい画像の詳細の恩恵を得ることである。
我々は、分解能非対称性は、アーキテクチャ非対称性よりも性能/効率のトレードオフを最適化するより良い方法である、と結論付けている。
論文 参考訳(メタデータ) (2022-10-11T14:05:30Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。