論文の概要: MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2409.02846v1
- Date: Wed, 4 Sep 2024 16:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:11:35.163588
- Title: MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling
- Title(参考訳): MaDis-Stereo: 蒸留マスク画像モデリングによるステレオマッチングの強化
- Authors: Jihye Ahn, Hyesong Choi, Soomin Kim, Dongbo Min,
- Abstract要約: 近年、トランスフォーマーベースのステレオモデルが研究されており、ステレオマッチングタスクに固有のデータ不足が原因で、CNNベースのステレオモデルよりも性能が遅れている。
本研究では,Masked Image Modeling Distilled Stereo matching model(MaDis-Stereo)を提案する。
- 参考スコア(独自算出の注目度): 18.02254687807291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In stereo matching, CNNs have traditionally served as the predominant architectures. Although Transformer-based stereo models have been studied recently, their performance still lags behind CNN-based stereo models due to the inherent data scarcity issue in the stereo matching task. In this paper, we propose Masked Image Modeling Distilled Stereo matching model, termed MaDis-Stereo, that enhances locality inductive bias by leveraging Masked Image Modeling (MIM) in training Transformer-based stereo model. Given randomly masked stereo images as inputs, our method attempts to conduct both image reconstruction and depth prediction tasks. While this strategy is beneficial to resolving the data scarcity issue, the dual challenge of reconstructing masked tokens and subsequently performing stereo matching poses significant challenges, particularly in terms of training stability. To address this, we propose to use an auxiliary network (teacher), updated via Exponential Moving Average (EMA), along with the original stereo model (student), where teacher predictions serve as pseudo supervisory signals to effectively distill knowledge into the student model. State-of-the-arts performance is achieved with the proposed method on several stereo matching such as ETH3D and KITTI 2015. Additionally, to demonstrate that our model effectively leverages locality inductive bias, we provide the attention distance measurement.
- Abstract(参考訳): ステレオマッチングでは、CNNは伝統的に支配的なアーキテクチャとして機能してきた。
トランスフォーマーベースのステレオモデルは近年研究されているが、ステレオマッチングタスクに固有のデータ不足が原因で、CNNベースのステレオモデルよりも性能が遅れている。
本稿では,Masked Image Modeling Distilled Stereo matching model(MaDis-Stereo)を提案する。
ランダムにマスクしたステレオ画像を入力として、画像再構成と深度予測の両方を行おうとする。
この戦略は、データ不足の問題を解決するのに有用であるが、マスク付きトークンを再構築し、ステレオマッチングを実行するという2つの課題は、特にトレーニングの安定性において重要な課題となっている。
そこで我々は,教師の予測が疑似監督信号として機能し,学生モデルに知識を効果的に取り入れることのできる補助的ネットワーク(教師)と,本来のステレオモデル(学生)を併用することを提案する。
ETH3D や KITTI 2015 など,いくつかのステレオマッチング手法を用いて最先端性能を実現する。
さらに,本モデルが局所性帰納バイアスを効果的に活用することを示すため,注意距離の測定を行った。
関連論文リスト
- StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models [2.9260206957981167]
StereoDiffusionを紹介します。これは、無償でトレーニングし、驚くほど簡単に使用でき、元のStable Diffusionモデルにシームレスに統合する手法です。
提案手法は,ステレオ画像ペアを高速に生成するためのエンドツーエンドで軽量な機能を実現するために潜時変数を変更する。
提案手法はステレオ生成プロセスを通じて画像品質の基準を高く維持し,様々な定量的評価を行う。
論文 参考訳(メタデータ) (2024-03-08T00:30:25Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Active-Passive SimStereo -- Benchmarking the Cross-Generalization
Capabilities of Deep Learning-based Stereo Methods [26.662129158141763]
自己相似領域やbland領域は、2つの画像間のパッチの一致を難しくする。
アクティブステレオベースの手法は、シーンに擬似ランダムパターンを投影することでこの問題を軽減する。
このパターンが対向雑音の一形態として振る舞うと、深層学習法の性能に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-17T10:30:32Z) - PointFix: Learning to Fix Domain Bias for Robust Online Stereo
Adaptation [67.41325356479229]
本稿では,PointFixと呼ばれるメタラーニングフレームワークに補助的なポイント選択型ネットワークを導入することを提案する。
簡単に言えば、我々の補助的ネットワークは、メタグラディエントを通じて局所情報を効果的にバックプロパゲートすることで、局所的変異を集中的に修正することを学ぶ。
このネットワークはモデルに依存しないため、プラグイン・アンド・プレイ方式であらゆる種類のアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2022-07-27T07:48:29Z) - SaiNet: Stereo aware inpainting behind objects with generative networks [21.35917056958527]
本稿では,物体の後方に大きな欠損領域を塗布する目的で,立体一貫性のある画像に塗装するエンド・ツー・エンドのネットワークを提案する。
提案モデルは,部分的畳み込みを用いたエッジ誘導型UNet様ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-05-14T09:07:30Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。