論文の概要: Dynamic Focus-aware Positional Queries for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.01244v1
- Date: Mon, 4 Apr 2022 05:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 02:59:19.146117
- Title: Dynamic Focus-aware Positional Queries for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのための動的フォーカスアウェアな位置問合せ
- Authors: Haoyu He, Jianfei Cai, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao,
Bohan Zhuang
- Abstract要約: 本稿では,先行するレイヤのクロスアテンションスコアとローカライズ情報に基づいて動的に位置クエリを生成することを提案する。
FASeg(Focus-Aware semantic)と呼ばれるフレームワークは、セマンティックセグメンテーションのためのシンプルで効果的なソリューションを提供します。
- 参考スコア(独自算出の注目度): 94.6834904076914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the latest top semantic segmentation approaches are based on vision
Transformers, particularly DETR-like frameworks, which employ a set of queries
in the Transformer decoder. Each query is composed of a content query that
preserves semantic information and a positional query that provides positional
guidance for aggregating the query-specific context. However, the positional
queries in the Transformer decoder layers are typically represented as fixed
learnable weights, which often encode dataset statistics for segments and can
be inaccurate for individual samples. Therefore, in this paper, we propose to
generate positional queries dynamically conditioned on the cross-attention
scores and the localization information of the preceding layer. By doing so,
each query is aware of its previous focus, thus providing more accurate
positional guidance and encouraging the cross-attention consistency across the
decoder layers. In addition, we also propose an efficient way to deal with
high-resolution cross-attention by dynamically determining the contextual
tokens based on the low-resolution cross-attention maps to perform local
relation aggregation. Our overall framework termed FASeg (Focus-Aware semantic
Segmentation) provides a simple yet effective solution for semantic
segmentation. Extensive experiments on ADE20K and Cityscapes show that our
FASeg achieves state-of-the-art performance, e.g., obtaining 48.3% and 49.6%
mIoU respectively for single-scale inference on ADE20K validation set with
ResNet-50 and Swin-T backbones, and barely increases the computation
consumption from Mask2former. Source code will be made publicly available at
https://github.com/zip-group/FASeg.
- Abstract(参考訳): 最新のトップセマンティックセグメンテーションアプローチのほとんどは、ビジョントランスフォーマー、特にトランスフォーマーデコーダの一連のクエリを使用するDETRのようなフレームワークに基づいている。
各クエリは、セマンティック情報を保存するコンテンツクエリと、クエリ固有のコンテキストを集約するための位置ガイダンスを提供する位置クエリで構成される。
しかし、Transformerデコーダ層における位置クエリは通常、固定学習可能な重みとして表現され、セグメントのデータセット統計をエンコードすることが多く、個々のサンプルに対して不正確である。
そこで本稿では,先行層のクロスアテンションスコアと局在情報に基づいて動的に条件づけられた位置問合せを生成する。
これにより、各クエリは以前のフォーカスを認識し、より正確な位置ガイダンスを提供し、デコーダ層間の相互アテンション一貫性を奨励する。
また,低分解能クロスアテンションマップに基づいてコンテキストトークンを動的に決定し,局所的な関係集約を行うことで,高分解能クロスアテンションに対処する効率的な手法を提案する。
faseg(focus-aware semantic segmentation)というフレームワークは、セマンティックセグメンテーションのためのシンプルで効果的なソリューションを提供します。
ADE20KとCityscapesの大規模な実験により、当社のFASegは、例えば、ResNet-50とSwin-Tのバックボーンを用いたADE20K検証セットにおいて、48.3%と49.6% mIoUをそれぞれ単一スケールの推論で取得し、Mask2formerの計算消費をわずかに増加させることが示されている。
ソースコードはhttps://github.com/zip-group/FASegで公開されます。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Enhancing DETRs Variants through Improved Content Query and Similar Query Aggregation [27.07277433645018]
SACQ(Self-Adaptive Content Query)を新たに導入する。
SACQは自己アテンションプーリングを通じてコンテンツクエリを生成する。
候補クエリを入力イメージに適応させることで、より包括的なコンテンツが事前に提供され、ターゲットオブジェクトにもっとフォーカスできるようになる。
我々は、SACQと協調するクエリ集約戦略を提案し、類似の予測候補を異なるクエリからマージし、最適化を緩和する。
論文 参考訳(メタデータ) (2024-05-06T09:50:04Z) - Optimized Information Flow for Transformer Tracking [0.7199733380797579]
ワンストリームトランスフォーマートラッカーは、挑戦的なベンチマークデータセットで優れたパフォーマンスを示している。
トラッカーの識別能力を高めるための新しいOIFTrackフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:39:15Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Resolution-Aware Design of Atrous Rates for Semantic Segmentation
Networks [7.58745191859815]
DeepLabはセマンティックセグメンテーションに広く使用されているディープニューラルネットワークであり、その成功は、アトラス空間ピラミッドプール(ASPP)と呼ばれる並列アーキテクチャによるものである。
アラスレートの固定値は、視野のサイズを制限するASPPモジュールに使用される。
本研究は,最適アラスレートを得るための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2023-07-26T13:11:48Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Dynamic Prototype Convolution Network for Few-Shot Semantic Segmentation [33.93192093090601]
少数ショットセマンティックセグメンテーション(FSS)の鍵となる課題は、サポートとクエリ機能間の望ましいインタラクションをどのように調整するかである。
そこで本研究では,FSSの精度を高めるために,本発明のプロトタイプコンボリューションネットワーク(DPCN)を提案する。
当社のDPCNは、kショットFSS設定下でも柔軟で効率的です。
論文 参考訳(メタデータ) (2022-04-22T11:12:37Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。