論文の概要: Dynamic Focus-aware Positional Queries for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.01244v3
- Date: Tue, 28 Mar 2023 02:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 20:03:30.239723
- Title: Dynamic Focus-aware Positional Queries for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのための動的フォーカスアウェアな位置問合せ
- Authors: Haoyu He, Jianfei Cai, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao,
Bohan Zhuang
- Abstract要約: 本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
- 参考スコア(独自算出の注目度): 94.6834904076914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DETR-like segmentors have underpinned the most recent breakthroughs in
semantic segmentation, which end-to-end train a set of queries representing the
class prototypes or target segments. Recently, masked attention is proposed to
restrict each query to only attend to the foreground regions predicted by the
preceding decoder block for easier optimization. Although promising, it relies
on the learnable parameterized positional queries which tend to encode the
dataset statistics, leading to inaccurate localization for distinct individual
queries. In this paper, we propose a simple yet effective query design for
semantic segmentation termed Dynamic Focus-aware Positional Queries (DFPQ),
which dynamically generates positional queries conditioned on the
cross-attention scores from the preceding decoder block and the positional
encodings for the corresponding image features, simultaneously. Therefore, our
DFPQ preserves rich localization information for the target segments and
provides accurate and fine-grained positional priors. In addition, we propose
to efficiently deal with high-resolution cross-attention by only aggregating
the contextual tokens based on the low-resolution cross-attention scores to
perform local relation aggregation. Extensive experiments on ADE20K and
Cityscapes show that with the two modifications on Mask2former, our framework
achieves SOTA performance and outperforms Mask2former by clear margins of 1.1%,
1.9%, and 1.1% single-scale mIoU with ResNet-50, Swin-T, and Swin-B backbones
on the ADE20K validation set, respectively. Source code is available at
https://github.com/ziplab/FASeg
- Abstract(参考訳): detrライクなセグメンタは、クラスプロトタイプやターゲットセグメンテーションを表す一連のクエリをエンドツーエンドでトレーニングするセマンティックセグメンテーションの、最新のブレークスルーの基礎となっている。
近年,先行するデコーダブロックが予測する前景領域のみに問い合わせを限定し,最適化を容易にするマスク付き注意が提案されている。
有望ではあるが、データセット統計をエンコードする傾向にある学習可能なパラメータ化位置クエリに依存しており、個々のクエリの非正確なローカライゼーションにつながる。
本稿では,先述のデコーダブロックと対応する画像特徴に対する位置符号化とから,クロスアテンションスコアを条件とした位置クエリを動的に生成する,意味セグメンテーション用語dfpq(dynamic focus-aware positional query)の簡易かつ効果的なクエリ設計を提案する。
したがって、DFPQは、ターゲットセグメントのリッチなローカライゼーション情報を保存し、高精度できめ細かな位置先情報を提供する。
さらに,低解像度のクロスアテンションスコアに基づいてコンテキストトークンを集約し,局所的な関係アグリゲーションを実行することで,高解像度のクロスアテンションを効率的に扱うことを提案する。
ADE20KとCityscapesの大規模な実験により,Msk2formerの2つの改良により,Msk2formerのSOTA性能をそれぞれ1.1%,1.9%,1.1%の単一スケールmIoU,ResNet-50,Swin-T,Swin-Bの検証セットで達成した。
ソースコードはhttps://github.com/ziplab/FASegで入手できる。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Enhancing DETRs Variants through Improved Content Query and Similar Query Aggregation [27.07277433645018]
SACQ(Self-Adaptive Content Query)を新たに導入する。
SACQは自己アテンションプーリングを通じてコンテンツクエリを生成する。
候補クエリを入力イメージに適応させることで、より包括的なコンテンツが事前に提供され、ターゲットオブジェクトにもっとフォーカスできるようになる。
我々は、SACQと協調するクエリ集約戦略を提案し、類似の予測候補を異なるクエリからマージし、最適化を緩和する。
論文 参考訳(メタデータ) (2024-05-06T09:50:04Z) - Optimized Information Flow for Transformer Tracking [0.7199733380797579]
ワンストリームトランスフォーマートラッカーは、挑戦的なベンチマークデータセットで優れたパフォーマンスを示している。
トラッカーの識別能力を高めるための新しいOIFTrackフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:39:15Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Resolution-Aware Design of Atrous Rates for Semantic Segmentation
Networks [7.58745191859815]
DeepLabはセマンティックセグメンテーションに広く使用されているディープニューラルネットワークであり、その成功は、アトラス空間ピラミッドプール(ASPP)と呼ばれる並列アーキテクチャによるものである。
アラスレートの固定値は、視野のサイズを制限するASPPモジュールに使用される。
本研究は,最適アラスレートを得るための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2023-07-26T13:11:48Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Dynamic Prototype Convolution Network for Few-Shot Semantic Segmentation [33.93192093090601]
少数ショットセマンティックセグメンテーション(FSS)の鍵となる課題は、サポートとクエリ機能間の望ましいインタラクションをどのように調整するかである。
そこで本研究では,FSSの精度を高めるために,本発明のプロトタイプコンボリューションネットワーク(DPCN)を提案する。
当社のDPCNは、kショットFSS設定下でも柔軟で効率的です。
論文 参考訳(メタデータ) (2022-04-22T11:12:37Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。