論文の概要: AutoFocusFormer: Image Segmentation off the Grid
- arxiv url: http://arxiv.org/abs/2304.12406v1
- Date: Mon, 24 Apr 2023 19:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:55:16.225343
- Title: AutoFocusFormer: Image Segmentation off the Grid
- Title(参考訳): AutoFocusFormer: グリッドからのイメージセグメンテーション
- Authors: Chen Ziwen, Kaushik Patnaik, Shuangfei Zhai, Alvin Wan, Zhile Ren,
Alex Schwing, Alex Colburn, Li Fuxin
- Abstract要約: AutoFocusFormer (AFF) は、ローカルアテンション変換器の画像認識バックボーンである。
バランスの取れたクラスタリングモジュールによって促進される新しいポイントベースのローカルアテンションブロックを開発する。
実験の結果、AutoFocusFormer(AFF)は類似サイズのベースラインモデルよりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 12.971039145206824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real world images often have highly imbalanced content density. Some areas
are very uniform, e.g., large patches of blue sky, while other areas are
scattered with many small objects. Yet, the commonly used successive grid
downsampling strategy in convolutional deep networks treats all areas equally.
Hence, small objects are represented in very few spatial locations, leading to
worse results in tasks such as segmentation. Intuitively, retaining more pixels
representing small objects during downsampling helps to preserve important
information. To achieve this, we propose AutoFocusFormer (AFF), a
local-attention transformer image recognition backbone, which performs adaptive
downsampling by learning to retain the most important pixels for the task.
Since adaptive downsampling generates a set of pixels irregularly distributed
on the image plane, we abandon the classic grid structure. Instead, we develop
a novel point-based local attention block, facilitated by a balanced clustering
module and a learnable neighborhood merging module, which yields
representations for our point-based versions of state-of-the-art segmentation
heads. Experiments show that our AutoFocusFormer (AFF) improves significantly
over baseline models of similar sizes.
- Abstract(参考訳): 現実世界の画像は、しばしば高度に不均衡なコンテンツ密度を持つ。
いくつかの地域は、例えば青い空の大きなパッチのような非常に均一であり、他の地域は多くの小さな物体で散らばっている。
しかし、畳み込み深層ネットワークにおけるグリッドダウンサンプリング戦略は、全ての領域を等しく扱う。
したがって、小さな物体はごくわずかな空間的位置で表現され、セグメンテーションのようなタスクが悪化する。
直感的には、ダウンサンプリング中に小さなオブジェクトを表すピクセルを多く保持することは重要な情報を保存するのに役立つ。
そこで本研究では,タスクの最も重要な画素を保持することを学習し,適応型ダウンサンプリングを行うローカル・アテンショントランスフォーマ画像認識バックボーンであるautofocusformer(aff)を提案する。
適応的なダウンサンプリングは画像平面上に不規則に分布する画素集合を生成するため、従来のグリッド構造は放棄する。
代わりに、バランスのとれたクラスタリングモジュールと学習可能な近傍マージモジュールによって容易になる、新しいポイントベースのローカルアテンションブロックを開発し、ポイントベースのセグメンテーションヘッドの表現を得る。
実験の結果、AutoFocusFormer(AFF)は類似サイズのベースラインモデルよりも大幅に改善されていることがわかった。
関連論文リスト
- Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。
具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。
次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文 参考訳(メタデータ) (2024-06-19T13:51:52Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Learning to Downsample for Segmentation of Ultra-High Resolution Images [6.432524678252553]
空間的に変化するダウンサンプリング戦略とセグメンテーションを併用して学習することで,計算予算に制限のある大きな画像のセグメンテーションにメリットがあることが示される。
本手法は, サンプリング密度を異なる場所に適用することにより, より小さな重要な領域から, より少ない領域からより多くのサンプルを収集する。
2つの公開データセットと1つのローカル高解像度データセットについて、本手法は、より多くの情報を保存するためのサンプリング位置を一貫して学習し、ベースライン法よりもセグメンテーション精度を向上することを示す。
論文 参考訳(メタデータ) (2021-09-22T23:04:59Z) - Pixel-Perfect Structure-from-Motion with Featuremetric Refinement [96.73365545609191]
複数視点からの低レベル画像情報を直接アライメントすることで、動きからの2つの重要なステップを洗練する。
これにより、様々なキーポイント検出器のカメラポーズとシーン形状の精度が大幅に向上する。
本システムは,大規模な画像コレクションに容易にスケールできるので,クラウドソースによる大規模なローカライゼーションを実現することができる。
論文 参考訳(メタデータ) (2021-08-18T17:58:55Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - An Empirical Method to Quantify the Peripheral Performance Degradation
in Deep Networks [18.808132632482103]
畳み込みニューラルネットワーク(CNN)カーネルは、各畳み込み層に結合する。
より深いネットワークとストライドベースのダウンサンプリングを組み合わせることで、この領域の伝播は、画像の無視できない部分をカバーすることができる。
我々のデータセットは、高解像度の背景にオブジェクトを挿入することで構築され、画像境界に対してターゲットオブジェクトを特定の位置に配置するサブイメージを収穫することができる。
マスクR-CNNの動作を目標位置の選択にわたって探索することにより、画像境界付近、特に画像コーナーにおいて、パフォーマンス劣化の明確なパターンが明らかになる。
論文 参考訳(メタデータ) (2020-12-04T18:00:47Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。