論文の概要: Cost Aggregation Is All You Need for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2112.11685v1
- Date: Wed, 22 Dec 2021 06:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 19:20:55.644743
- Title: Cost Aggregation Is All You Need for Few-Shot Segmentation
- Title(参考訳): コスト集約は、最小限のセグメンテーションに必要なすべてである
- Authors: Sunghwan Hong, Seokju Cho, Jisu Nam, Seungryong Kim
- Abstract要約: 本稿では,数発のセグメンテーションタスクに取り組むために,変圧器を用いたボリュームアグリゲーション(VAT)を提案する。
VATは畳み込みとトランスフォーマーの両方を使用して、クエリとサポートの間の高次元相関マップを効率的に処理する。
提案手法は,意味対応タスクにおける標準ベンチマークにおいても,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 28.23753949369226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel cost aggregation network, dubbed Volumetric Aggregation
with Transformers (VAT), to tackle the few-shot segmentation task by using both
convolutions and transformers to efficiently handle high dimensional
correlation maps between query and support. In specific, we propose our encoder
consisting of volume embedding module to not only transform the correlation
maps into more tractable size but also inject some convolutional inductive bias
and volumetric transformer module for the cost aggregation. Our encoder has a
pyramidal structure to let the coarser level aggregation to guide the finer
level and enforce to learn complementary matching scores. We then feed the
output into our affinity-aware decoder along with the projected feature maps
for guiding the segmentation process. Combining these components, we conduct
experiments to demonstrate the effectiveness of the proposed method, and our
method sets a new state-of-the-art for all the standard benchmarks in few-shot
segmentation task. Furthermore, we find that the proposed method attains
state-of-the-art performance even for the standard benchmarks in semantic
correspondence task although not specifically designed for this task. We also
provide an extensive ablation study to validate our architectural choices. The
trained weights and codes are available at: https://seokju-cho.github.io/VAT/.
- Abstract(参考訳): コンボリューションとトランスフォーマーの両方を用いて,クエリとサポートの間の高次元相関マップを効率的に処理することで,数ショットのセグメンテーションタスクに取り組むために,VAT(Volumetric Aggregation with Transformers)と呼ばれる新しいコスト集約ネットワークを導入する。
具体的には, ボリューム埋め込みモジュールからなるエンコーダを提案し, 相関写像をよりトラクタブルなサイズに変換するだけでなく, コストアグリゲーションのための畳み込み帰納バイアスと体積変換モジュールを注入する。
我々のエンコーダはピラミッド構造を持ち、粗いレベルを集約してより細かいレベルをガイドし、相補的なマッチングスコアを学習できるようにします。
次に、出力をアフィニティ対応デコーダに入力し、プロジェクションされた特徴マップと合わせてセグメント化プロセスの導出を行う。
これらのコンポーネントを組み合わせることで,提案手法の有効性を実証する実験を行い,本手法は,全標準ベンチマークに対して,数発のセグメンテーションタスクで新たな最先端を設定できる。
さらに,提案手法は,意味対応タスクの標準ベンチマークにおいても,そのタスクに特化して設計されていないものの,最先端性能を実現する。
また、アーキテクチャの選択を検証するための広範なアブレーション調査も行います。
トレーニングされたウェイトとコードは以下の通りである。
関連論文リスト
- Hierarchical Dense Correlation Distillation for Few-Shot
Segmentation-Extended Abstract [47.85056124410376]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーションだけで見えないクラスをセグメンテーションするクラスに依存しないモデルを構築することを目的としている。
我々は、トランスアーキテクチャに基づく階層的分離マッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
本稿では,列車セットの過度適合を低減し,粗い分解から意味対応を生かした相関蒸留を導入し,細粒度セグメンテーションを向上するマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-27T08:10:20Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Hierarchical Dense Correlation Distillation for Few-Shot Segmentation [46.696051965252934]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーションだけで見えないクラスをセグメンテーションするクラスに依存しないモデルを構築することを目的としている。
我々は、トランスアーキテクチャに基づく階層的分離マッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
本稿では,列車セットの過度適合を低減し,粗い分解から意味対応を生かした相関蒸留を導入し,細粒度セグメンテーションを向上するマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-26T08:13:12Z) - Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence [63.868905184847954]
現在の最先端はTransformerベースのアプローチで、機能記述子やコストボリュームアグリゲーションに重点を置いている。
本稿では,両形態のアグリゲーションを相互にインターリーブするトランスフォーマーネットワークを提案する。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T03:33:35Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。