論文の概要: Semantic Correspondence with Transformers
- arxiv url: http://arxiv.org/abs/2106.02520v1
- Date: Fri, 4 Jun 2021 14:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 19:47:34.477148
- Title: Semantic Correspondence with Transformers
- Title(参考訳): トランスフォーマーと意味的対応
- Authors: Seokju Cho, Sunghwan Hong, Sangryul Jeon, Yunsung Lee, Kwanghoon Sohn
and Seungryong Kim
- Abstract要約: 本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
- 参考スコア(独自算出の注目度): 68.37049687360705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel cost aggregation network, called Cost Aggregation with
Transformers (CATs), to find dense correspondences between semantically similar
images with additional challenges posed by large intra-class appearance and
geometric variations. Compared to previous hand-crafted or CNN-based methods
addressing the cost aggregation stage, which either lack robustness to severe
deformations or inherit the limitation of CNNs that fail to discriminate
incorrect matches due to limited receptive fields, CATs explore global
consensus among initial correlation map with the help of some architectural
designs that allow us to exploit full potential of self-attention mechanism.
Specifically, we include appearance affinity modelling to disambiguate the
initial correlation maps and multi-level aggregation to benefit from
hierarchical feature representations within Transformer-based aggregator, and
combine with swapping self-attention and residual connections not only to
enforce consistent matching, but also to ease the learning process. We conduct
experiments to demonstrate the effectiveness of the proposed model over the
latest methods and provide extensive ablation studies. Code and trained models
will be made available at https://github.com/SunghwanHong/CATs.
- Abstract(参考訳): そこで我々は,CAT (Cost Aggregation with Transformers) と呼ばれる新しいコスト集約ネットワークを提案する。
厳しい変形に対する堅牢性の欠如や、限定的な受容場による不適切なマッチングの識別に失敗するCNNの制限を継承する従来の手作りあるいはCNNベースの手法と比較して、CATは、自己認識機構の可能性を最大限に活用できるアーキテクチャ設計の助けを借りて、初期相関マップのグローバルコンセンサスを探求する。
具体的には,初期相関マップとマルチレベルアグリゲーションを曖昧にすることで,トランスフォーマティブベースのアグリゲータ内の階層的特徴表現の恩恵を受けるとともに,一貫性のあるマッチングを強制するだけでなく,学習プロセスを容易にするために自己アグリゲータと残余接続の交換を組み合わせる,外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
コードとトレーニングされたモデルはhttps://github.com/sunghwanhong/catsで利用可能になる。
関連論文リスト
- On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - CATs++: Boosting Cost Aggregation with Convolutions and Transformers [31.22435282922934]
本稿では,変換器を用いたコストアグリゲーション(CAT)を導入し,初期相関マップ間のグローバルコンセンサスを探索する。
また、標準変圧器の使用による計算コストの増大など、CATが直面する可能性のあるいくつかの制約を緩和するため、CATs++を提案する。
提案手法は従来の最先端手法を大きなマージンで上回り、全てのベンチマークに対して新しい最先端手法を設定できる。
論文 参考訳(メタデータ) (2022-02-14T15:54:58Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。