論文の概要: UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching
- arxiv url: http://arxiv.org/abs/2409.02545v1
- Date: Wed, 4 Sep 2024 09:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 19:30:37.220885
- Title: UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching
- Title(参考訳): UniTT-Stereo:強化ステレオマッチングのための変圧器の統一トレーニング
- Authors: Soomin Kim, Hyesong Choi, Jihye Ahn, Dongbo Min,
- Abstract要約: UniTT-StereoはTransformerベースのステレオアーキテクチャの可能性を最大化する手法である。
UniTT-Stereoの最先端性能は、ETH3D、KITTI 2012、KITTI 2015データセットなどの様々なベンチマークで検証されている。
- 参考スコア(独自算出の注目度): 18.02254687807291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike other vision tasks where Transformer-based approaches are becoming increasingly common, stereo depth estimation is still dominated by convolution-based approaches. This is mainly due to the limited availability of real-world ground truth for stereo matching, which is a limiting factor in improving the performance of Transformer-based stereo approaches. In this paper, we propose UniTT-Stereo, a method to maximize the potential of Transformer-based stereo architectures by unifying self-supervised learning used for pre-training with stereo matching framework based on supervised learning. To be specific, we explore the effectiveness of reconstructing features of masked portions in an input image and at the same time predicting corresponding points in another image from the perspective of locality inductive bias, which is crucial in training models with limited training data. Moreover, to address these challenging tasks of reconstruction-and-prediction, we present a new strategy to vary a masking ratio when training the stereo model with stereo-tailored losses. State-of-the-art performance of UniTT-Stereo is validated on various benchmarks such as ETH3D, KITTI 2012, and KITTI 2015 datasets. Lastly, to investigate the advantages of the proposed approach, we provide a frequency analysis of feature maps and the analysis of locality inductive bias based on attention maps.
- Abstract(参考訳): トランスフォーマーベースのアプローチがますます一般的になりつつある他の視覚タスクとは異なり、ステレオ深度推定は畳み込みベースのアプローチに支配されている。
これは主に、トランスフォーマーベースのステレオアプローチの性能向上における制限要因であるステレオマッチングの現実的真実の可用性の制限によるものである。
本論文では,教師付き学習に基づくステレオマッチングフレームワークの事前学習に使用する自己教師付き学習を統合することで,トランスフォーマーベースのステレオアーキテクチャの可能性の最大化を図る手法であるUniTT-Stereoを提案する。
具体的には,入力画像中のマスキング部分の特徴を再構成すると同時に,局所性帰納バイアスの観点から他の画像の対応する点を予測することの有効性について検討する。
さらに, 復元・予測の困難な課題に対処するために, ステレオモデルにステレオ調整損失を伴ってトレーニングを行う際に, マスキング率を変化させる新たな戦略を提案する。
UniTT-Stereoの最先端性能は、ETH3D、KITTI 2012、KITTI 2015データセットなどの様々なベンチマークで検証されている。
最後に,提案手法の利点を検討するため,特徴写像の周波数解析とアテンションマップに基づく局所性帰納バイアスの解析を行う。
関連論文リスト
- Stereo Risk: A Continuous Modeling Approach to Stereo Matching [110.22344879336043]
我々はコンピュータビジョンにおける古典的ステレオマッチング問題を解決するための新しいディープラーニングアプローチであるStereo Riskを紹介する。
ステレオリスクはディープネットワーク,特にマルチモーダル確率分布の相違に対して,ステレオマッチング性能を向上させることを実証する。
総合的な分析により,提案手法の理論的健全性と,各種ベンチマークデータセットにおける最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-03T14:30:47Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - PointFix: Learning to Fix Domain Bias for Robust Online Stereo
Adaptation [67.41325356479229]
本稿では,PointFixと呼ばれるメタラーニングフレームワークに補助的なポイント選択型ネットワークを導入することを提案する。
簡単に言えば、我々の補助的ネットワークは、メタグラディエントを通じて局所情報を効果的にバックプロパゲートすることで、局所的変異を集中的に修正することを学ぶ。
このネットワークはモデルに依存しないため、プラグイン・アンド・プレイ方式であらゆる種類のアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2022-07-27T07:48:29Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo
Matching [14.603116313499648]
本稿では,ピラミッド投票モジュール(PVM)と,OptStereoと呼ばれる新しいDCNNアーキテクチャからなる,堅牢で効果的な自己監督型ステレオマッチング手法を提案する。
具体的には、OptStereoは最初にマルチスケールのコストボリュームを構築し、その後、繰り返し単位を採用し、高分解能で不一致推定を反復的に更新します。
hkust-driveデータセット(大規模な合成ステレオデータセット)を、異なる照明条件と気象条件下で研究目的で収集した。
論文 参考訳(メタデータ) (2021-03-12T05:27:14Z) - Learning to Adapt Multi-View Stereo by Self-Supervision [0.5156484100374059]
複数視点からの3次元シーン再構成はコンピュータビジョンの重要な古典的問題である。
ディープラーニングに基づくアプローチは、最近、印象的な再構築結果を示している。
本稿では,新しい対象領域への適応性を向上させるために,深層ニューラルネットワークを訓練する多視点ステレオの適応学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T12:42:36Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。