論文の概要: Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence
- arxiv url: http://arxiv.org/abs/2403.11120v1
- Date: Sun, 17 Mar 2024 07:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.751629
- Title: Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence
- Title(参考訳): 意味的・視覚的対応のための変換器を用いた特徴量とコスト集約
- Authors: Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin,
- Abstract要約: 本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
- 参考スコア(独自算出の注目度): 51.54175067684008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a Transformer-based integrative feature and cost aggregation network designed for dense matching tasks. In the context of dense matching, many works benefit from one of two forms of aggregation: feature aggregation, which pertains to the alignment of similar features, or cost aggregation, a procedure aimed at instilling coherence in the flow estimates across neighboring pixels. In this work, we first show that feature aggregation and cost aggregation exhibit distinct characteristics and reveal the potential for substantial benefits stemming from the judicious use of both aggregation processes. We then introduce a simple yet effective architecture that harnesses self- and cross-attention mechanisms to show that our approach unifies feature aggregation and cost aggregation and effectively harnesses the strengths of both techniques. Within the proposed attention layers, the features and cost volume both complement each other, and the attention layers are interleaved through a coarse-to-fine design to further promote accurate correspondence estimation. Finally at inference, our network produces multi-scale predictions, computes their confidence scores, and selects the most confident flow for final prediction. Our framework is evaluated on standard benchmarks for semantic matching, and also applied to geometric matching, where we show that our approach achieves significant improvements compared to existing methods.
- Abstract(参考訳): 本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
密マッチングの文脈において、多くの作品は、類似した特徴のアライメント(英語版)またはコストアグリゲーション(英語版)のアライメント(英語版)という、2つの形式のアグリゲーション(英語版)の恩恵を受ける。
本研究は,まず,特徴集約とコスト集約が異なる特徴を示すことを示し,双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにする。
次に,本手法が機能集約とコスト集約を統一し,両手法の強みを効果的に活用することを示すために,自己と横断的なメカニズムを活用する,シンプルで効果的なアーキテクチャを導入する。
提案した注目層内では,特徴量とコスト容積が相補的であり,注目層は粗い設計によりインターリーブされ,正確な対応推定が促進される。
最後に,本ネットワークはマルチスケール予測を行い,信頼度を算出し,信頼度の高いフローを選択し,最終的な予測を行う。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - Local Consensus Enhanced Siamese Network with Reciprocal Loss for
Two-view Correspondence Learning [35.5851523517487]
2視点対応学習は通常、一致の信頼性と相対的なポーズを共同で予測するエンドツーエンドネットワークを確立する。
本稿では,既存のモデルの特徴を増強するローカル・フィーチャー・コンセンサス (LFC) プラグイン・ブロックを提案する。
我々は既存のモデルを相互予測の監督を生かした相互損失を伴うシームズネットワークに拡張する。
論文 参考訳(メタデータ) (2023-08-06T22:20:09Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence [63.868905184847954]
現在の最先端はTransformerベースのアプローチで、機能記述子やコストボリュームアグリゲーションに重点を置いている。
本稿では,両形態のアグリゲーションを相互にインターリーブするトランスフォーマーネットワークを提案する。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T03:33:35Z) - Consensual Aggregation on Random Projected High-dimensional Features for
Regression [0.0]
本稿では,ランダムに投影された回帰予測の高次元的特徴に対するカーネルベースの合意アグリゲーションについて検討する。
集約方式は, 非常に大きく, 高い相関性を持つ特徴に対して, その性能を保っていることを数値的に説明する。
提案手法の効率性は,様々な種類の合成データセットと実データセットで評価されたいくつかの実験を通して説明される。
論文 参考訳(メタデータ) (2022-04-06T06:35:47Z) - Mix and Mask Actor-Critic Methods [0.0]
アクタークリティカルな手法のための共有特徴空間は、ポリシーと値関数で使用される一般化された潜在表現をキャプチャすることを目的としている。
混合マスク機構と分散スカラー化手法を導入することで,これらの課題に対処する新しい特徴共有フレームワークを提案する。
実験結果から,共有バックボーンを持つネットワークとネットワークを別々に使用する方法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-06-24T14:12:45Z) - Interactive Fusion of Multi-level Features for Compositional Activity
Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-10T14:17:18Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。