論文の概要: Global Regulation and Excitation via Attention Tuning for Stereo Matching
- arxiv url: http://arxiv.org/abs/2509.15891v1
- Date: Fri, 19 Sep 2025 11:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.146511
- Title: Global Regulation and Excitation via Attention Tuning for Stereo Matching
- Title(参考訳): ステレオマッチングのためのアテンションチューニングによるグローバルレギュレーションと励起
- Authors: Jiahao Li, Xinhong Chen, Zhengmin Jiang, Qian Zhou, Yung-Hui Li, Jianping Wang,
- Abstract要約: 本稿では3つの注意モジュールを含むGREAT(Global Regulation and Excitation via Attention Tuning)フレームワークを提案する。
具体的には、空間的注意(SA)は空間的次元内のグローバルなコンテキストを捉え、マッチング注意(MA)はエピポーラ線に沿ってグローバルなコンテキストを抽出し、ボリューム注意(VA)はSAとMAと連携して、グローバルなコンテキストと幾何学的詳細に興奮したより堅牢なコストボリュームを構築する。
このフレームワークは、不適切な領域において優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 21.40608901253552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching achieves significant progress with iterative algorithms like RAFT-Stereo and IGEV-Stereo. However, these methods struggle in ill-posed regions with occlusions, textureless, or repetitive patterns, due to a lack of global context and geometric information for effective iterative refinement. To enable the existing iterative approaches to incorporate global context, we propose the Global Regulation and Excitation via Attention Tuning (GREAT) framework which encompasses three attention modules. Specifically, Spatial Attention (SA) captures the global context within the spatial dimension, Matching Attention (MA) extracts global context along epipolar lines, and Volume Attention (VA) works in conjunction with SA and MA to construct a more robust cost-volume excited by global context and geometric details. To verify the universality and effectiveness of this framework, we integrate it into several representative iterative stereo-matching methods and validate it through extensive experiments, collectively denoted as GREAT-Stereo. This framework demonstrates superior performance in challenging ill-posed regions. Applied to IGEV-Stereo, among all published methods, our GREAT-IGEV ranks first on the Scene Flow test set, KITTI 2015, and ETH3D leaderboards, and achieves second on the Middlebury benchmark. Code is available at https://github.com/JarvisLee0423/GREAT-Stereo.
- Abstract(参考訳): Stereo MatchはRAFT-StereoやIGEV-Stereoといった反復アルゴリズムによって大幅に進歩する。
しかし、これらの手法は、グローバルな文脈や幾何学的な情報が欠如しているため、隠蔽、テクスチャレス、反復的なパターンを持つ不適切な領域で苦労する。
グローバルコンテキストを組み込むための既存の反復的アプローチを実現するため、3つの注意モジュールを含むGREAT(Global Regulation and Excitation)フレームワークを提案する。
具体的には、空間的注意(SA)は空間的次元内のグローバルなコンテキストを捉え、マッチング注意(MA)はエピポーラ線に沿ってグローバルなコンテキストを抽出し、ボリューム注意(VA)はSAとMAと連携して、グローバルなコンテキストと幾何学的詳細に興奮したより堅牢なコストボリュームを構築する。
本フレームワークの普遍性と有効性を検証するため,いくつかの代表的反復的ステレオマッチング手法に統合し,GREAT-Stereoと総称される広範囲な実験を通じて検証する。
このフレームワークは、不適切な領域において優れたパフォーマンスを示す。
IGEV-Stereoに適用されたGREAT-IGEVは、すべての公開方法の中で、Scene Flowテストセット、KITTI 2015、ETH3Dリーダーボードで第1位、Middleburyベンチマークで第2位です。
コードはhttps://github.com/JarvisLee0423/GREAT-Stereoで入手できる。
関連論文リスト
- GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は,ロバストな視覚音声認識のためのグローバルローカル統合プログレッシブフレームワークであるGLipを提案する。
GLipは、グローバルな視覚的特徴と局所的な視覚的特徴の両方を対応する音響音声ユニットと整合させることを学ぶ。
LRS2 と LRS3 のベンチマークでは、既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization [35.73353140683283]
画像編集ツールや生成AIのアクセシビリティ向上は、視覚的に説得力のある偽造物の普及につながっている。
本稿では、その内部生成過程を利用して、最先端(SOTA)テキスト・画像合成モデルのメカニズムを再利用する。
本稿では,Low- Rank Adaptation (LoRA) を用いてパラメータ効率よく安定拡散3 (SD3) を法定特徴抽出器として構成するフレームワークであるCLUEを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:22:30Z) - World-Consistent Data Generation for Vision-and-Language Navigation [33.13590164890286]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - GUESR: A Global Unsupervised Data-Enhancement with Bucket-Cluster
Sampling for Sequential Recommendation [58.6450834556133]
本研究では,グローバルな視点から複雑な関連性を持つ項目表現を強化するために,グラフコントラスト学習を提案する。
本稿では,CapsNetモジュールを拡張したターゲットアテンション機構により,ユーザの動的嗜好を導出する。
提案したGUESRは,大幅な改善を達成できただけでなく,汎用的な拡張戦略ともみなすことができた。
論文 参考訳(メタデータ) (2023-03-01T05:46:36Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo
Matching [14.603116313499648]
本稿では,ピラミッド投票モジュール(PVM)と,OptStereoと呼ばれる新しいDCNNアーキテクチャからなる,堅牢で効果的な自己監督型ステレオマッチング手法を提案する。
具体的には、OptStereoは最初にマルチスケールのコストボリュームを構築し、その後、繰り返し単位を採用し、高分解能で不一致推定を反復的に更新します。
hkust-driveデータセット(大規模な合成ステレオデータセット)を、異なる照明条件と気象条件下で研究目的で収集した。
論文 参考訳(メタデータ) (2021-03-12T05:27:14Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。