論文の概要: Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching
- arxiv url: http://arxiv.org/abs/2411.09151v1
- Date: Thu, 14 Nov 2024 03:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:39.303392
- Title: Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching
- Title(参考訳): Mono2Stereo: ステレオマッチングの強化のための単眼的知識伝達
- Authors: Yuran Wang, Yingping Liang, Hesong Li, Ying Fu,
- Abstract要約: ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
- 参考スコア(独自算出の注目度): 7.840781070208874
- License:
- Abstract: The generalization and performance of stereo matching networks are limited due to the domain gap of the existing synthetic datasets and the sparseness of GT labels in the real datasets. In contrast, monocular depth estimation has achieved significant advancements, benefiting from large-scale depth datasets and self-supervised strategies. To bridge the performance gap between monocular depth estimation and stereo matching, we propose leveraging monocular knowledge transfer to enhance stereo matching, namely Mono2Stereo. We introduce knowledge transfer with a two-stage training process, comprising synthetic data pre-training and real-world data fine-tuning. In the pre-training stage, we design a data generation pipeline that synthesizes stereo training data from monocular images. This pipeline utilizes monocular depth for warping and novel view synthesis and employs our proposed Edge-Aware (EA) inpainting module to fill in missing contents in the generated images. In the fine-tuning stage, we introduce a Sparse-to-Dense Knowledge Distillation (S2DKD) strategy encouraging the distributions of predictions to align with dense monocular depths. This strategy mitigates issues with edge blurring in sparse real-world labels and enhances overall consistency. Experimental results demonstrate that our pre-trained model exhibits strong zero-shot generalization capabilities. Furthermore, domain-specific fine-tuning using our pre-trained model and S2DKD strategy significantly increments in-domain performance. The code will be made available soon.
- Abstract(参考訳): ステレオマッチングネットワークの一般化と性能は、既存の合成データセットのドメインギャップと、実際のデータセットにおけるGTラベルのスパース性によって制限される。
対照的に、単眼深度推定は大規模深度データセットと自己管理戦略の恩恵を受け、大幅な進歩を遂げた。
単眼深度推定とステレオマッチングのパフォーマンスギャップを埋めるために,単眼の知識伝達を利用してステレオマッチング,すなわちMono2Stereoを向上する手法を提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
事前学習段階において,モノクル画像からステレオトレーニングデータを合成するデータ生成パイプラインを設計する。
このパイプラインは、単分子深度をワーピングと新しいビュー合成に利用し、提案したエッジ・アウェア(EA)塗装モジュールを用いて、生成した画像の不足内容を埋める。
微調整段階では,S2DKD(Sparse-to-Dense Knowledge Distillation)戦略を導入する。
この戦略は、疎い現実世界のラベルのエッジのぼかしの問題を軽減するとともに、全体的な一貫性を高める。
実験の結果,事前学習したモデルでは強いゼロショット一般化能力を示すことが示された。
さらに、事前訓練されたモデルとS2DKD戦略を用いたドメイン固有の微調整は、ドメイン内のパフォーマンスを著しく向上させる。
コードはまもなく公開されます。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Towards Better Data Exploitation in Self-Supervised Monocular Depth
Estimation [14.262669370264994]
本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。
具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。
実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。
論文 参考訳(メタデータ) (2023-09-11T06:18:05Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES
Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。
画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。
我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文 参考訳(メタデータ) (2020-06-16T09:57:38Z) - Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文 参考訳(メタデータ) (2020-04-28T21:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。