論文の概要: Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence
- arxiv url: http://arxiv.org/abs/2209.08742v2
- Date: Tue, 20 Sep 2022 04:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:38:38.109020
- Title: Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence
- Title(参考訳): 密度対応変換器による統合的特徴とコスト集約
- Authors: Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin
- Abstract要約: 現在の最先端はTransformerベースのアプローチで、機能記述子やコストボリュームアグリゲーションに重点を置いている。
本稿では,両形態のアグリゲーションを相互にインターリーブするトランスフォーマーネットワークを提案する。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
- 参考スコア(独自算出の注目度): 63.868905184847954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel architecture for dense correspondence. The current
state-of-the-art are Transformer-based approaches that focus on either feature
descriptors or cost volume aggregation. However, they generally aggregate one
or the other but not both, though joint aggregation would boost each other by
providing information that one has but other lacks, i.e., structural or
semantic information of an image, or pixel-wise matching similarity. In this
work, we propose a novel Transformer-based network that interleaves both forms
of aggregations in a way that exploits their complementary information.
Specifically, we design a self-attention layer that leverages the descriptor to
disambiguate the noisy cost volume and that also utilizes the cost volume to
aggregate features in a manner that promotes accurate matching. A subsequent
cross-attention layer performs further aggregation conditioned on the
descriptors of both images and aided by the aggregated outputs of earlier
layers. We further boost the performance with hierarchical processing, in which
coarser level aggregations guide those at finer levels. We evaluate the
effectiveness of the proposed method on dense matching tasks and achieve
state-of-the-art performance on all the major benchmarks. Extensive ablation
studies are also provided to validate our design choices.
- Abstract(参考訳): 我々は高密度通信のための新しいアーキテクチャを提案する。
現在の最先端は、機能記述子とコストボリューム集約の両方に焦点を当てたトランスフォーマティブベースのアプローチである。
しかし、一般的には両者を集約するわけではないが、ジョイントアグリゲーションは、画像の構造的または意味的な情報、あるいはピクセル単位での類似性を欠いた情報を提供することによって相互を増強する。
本研究では,両形態のアグリゲーションを相補的な情報を活用する方法でインターリーブするトランスフォーマーベースのネットワークを提案する。
具体的には,記述子を利用した自己注意層を設計し,ノイズの多いコストボリュームを曖昧にし,またコストボリュームを利用して特徴量を正確なマッチングを促進する。
その後のクロスアテンション層は、両方の画像のディスクリプタに条件付きでさらに集約を行い、前の層の集約出力によって支援される。
階層的な処理によってさらに性能が向上し、より微細なレベルでのサーサーレベルの集約が導かれる。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
設計選択を検証するために、広範囲にわたるアブレーション研究も行われている。
関連論文リスト
- Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Measuring the Mixing of Contextual Information in the Transformer [0.19116784879310028]
注意ブロック - 複数頭部の注意、残差接続、および層正規化 - を考慮し、トークンとトークンの相互作用を測定するための計量を定義する。
次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。
実験により,本手法は忠実な説明を提供し,類似のアグリゲーション法より優れていることを示す。
論文 参考訳(メタデータ) (2022-03-08T17:21:27Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Cost Aggregation Is All You Need for Few-Shot Segmentation [28.23753949369226]
本稿では,数発のセグメンテーションタスクに取り組むために,変圧器を用いたボリュームアグリゲーション(VAT)を提案する。
VATは畳み込みとトランスフォーマーの両方を使用して、クエリとサポートの間の高次元相関マップを効率的に処理する。
提案手法は,意味対応タスクにおける標準ベンチマークにおいても,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-22T06:18:51Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - GOCor: Bringing Globally Optimized Correspondence Volumes into Your
Neural Network [176.3781969089004]
特徴相関層は、画像ペア間の密接な対応を含むコンピュータビジョン問題において、重要なニューラルネットワークモジュールとして機能する。
我々は,特徴相関層の直接置換として機能する,完全に微分可能な密マッチングモジュール GOCor を提案する。
本手法は,幾何マッチング,光学フロー,密接なセマンティックマッチングのタスクにおいて,特徴相関層を著しく上回っている。
論文 参考訳(メタデータ) (2020-09-16T17:33:01Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。