論文の概要: Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching
- arxiv url: http://arxiv.org/abs/2308.03048v1
- Date: Sun, 6 Aug 2023 08:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:00:16.722068
- Title: Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching
- Title(参考訳): 一般化ステレオマッチングのためのマルチスケールアテンション変換器
- Authors: Wei Miao, Hong Zhao, Tongjia Chen, Wei Huang, Changyan Xiao
- Abstract要約: 両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
- 参考スコア(独自算出の注目度): 7.493797166406228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent stereo matching networks achieves dramatic performance by introducing
epipolar line constraint to limit the matching range of dual-view. However, in
complicated real-world scenarios, the feature information based on
intra-epipolar line alone is too weak to facilitate stereo matching. In this
paper, we present a simple but highly effective network called Alternated
Attention U-shaped Transformer (AAUformer) to balance the impact of epipolar
line in dual and single view respectively for excellent generalization
performance. Compared to other models, our model has several main designs: 1)
to better liberate the local semantic features of the single-view at pixel
level, we introduce window self-attention to break the limits of intra-row
self-attention and completely replace the convolutional network for denser
features before cross-matching; 2) the multi-scale alternated attention
backbone network was designed to extract invariant features in order to
achieves the coarse-to-fine matching process for hard-to-discriminate regions.
We performed a series of both comparative studies and ablation studies on
several mainstream stereo matching datasets. The results demonstrate that our
model achieves state-of-the-art on the Scene Flow dataset, and the fine-tuning
performance is competitive on the KITTI 2015 dataset. In addition, for cross
generalization experiments on synthetic and real-world datasets, our model
outperforms several state-of-the-art works.
- Abstract(参考訳): 最近のステレオマッチングネットワークは、双対ビューのマッチング範囲を制限するために、エピポーラ線制約を導入することで劇的な性能を実現する。
しかし、複雑な実世界のシナリオでは、エピポーラ内線のみに基づく特徴情報は、ステレオマッチングを容易にするには弱すぎる。
本稿では,2重および1重の視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
1)画素レベルでの単一視点の局所的意味的特徴をより良く解放するために,空間内自己アテンションの限界を破るためにウィンドウ自己アテンションを導入し,クロスマッチ前に密集した特徴に対する畳み込みネットワークを完全に置き換える。
2) マルチスケールの注目バックボーンネットワークは, 識別困難な領域に対する粗大なマッチングを実現するために, 不変特徴を抽出するように設計された。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
その結果,本モデルがScene Flowデータセットの最先端性を実現し,KITTI 2015データセットの微調整性能が競い合っていることがわかった。
さらに、合成および実世界のデータセットのクロス一般化実験では、我々のモデルは最先端のいくつかの研究よりも優れている。
関連論文リスト
- Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。
本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。
まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。
トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文 参考訳(メタデータ) (2023-08-17T14:14:28Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。