論文の概要: CroMo: Cross-Modal Learning for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2203.12485v1
- Date: Wed, 23 Mar 2022 15:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 15:19:22.720252
- Title: CroMo: Cross-Modal Learning for Monocular Depth Estimation
- Title(参考訳): CroMo: 単眼深度推定のためのクロスモーダル学習
- Authors: Yannick Verdi\'e, Jifei Song, Barnab\'e Mas, Benjamin Busam, Ale\v{s}
Leonardis, Steven McDonagh
- Abstract要約: 本稿では,センサおよびモダリティ設計選択に関連する重要なトレードオフと,関連するモデルトレーニング戦略について検討する。
本研究では,単分子偏光から深度を推定できる新しいパイプラインを提案する。
既存のマルチモーダル・データセットがない場合には、カスタムメイドのマルチモーダル・カメラ・リグを用いてアプローチを検証し、CroMoを収集する。
- 参考スコア(独自算出の注目度): 10.74264031736324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based depth estimation has witnessed recent progress in multiple
directions; from self-supervision using monocular video to supervised methods
offering highest accuracy. Complementary to supervision, further boosts to
performance and robustness are gained by combining information from multiple
signals. In this paper we systematically investigate key trade-offs associated
with sensor and modality design choices as well as related model training
strategies. Our study leads us to a new method, capable of connecting
modality-specific advantages from polarisation, Time-of-Flight and
structured-light inputs. We propose a novel pipeline capable of estimating
depth from monocular polarisation for which we evaluate various training
signals. The inversion of differentiable analytic models thereby connects scene
geometry with polarisation and ToF signals and enables self-supervised and
cross-modal learning. In the absence of existing multimodal datasets, we
examine our approach with a custom-made multi-modal camera rig and collect
CroMo; the first dataset to consist of synchronized stereo polarisation,
indirect ToF and structured-light depth, captured at video rates. Extensive
experiments on challenging video scenes confirm both qualitative and
quantitative pipeline advantages where we are able to outperform competitive
monocular depth estimation method.
- Abstract(参考訳): 学習に基づく奥行き推定は,単眼映像を用いた自己視から,高精度な教師あり手法まで,多方向の最近の進歩を目の当たりにしている。
監視の補完として、複数の信号からの情報を組み合わせることで、パフォーマンスと堅牢性をさらに向上する。
本稿では,センサおよびモダリティ設計選択に関連する重要なトレードオフと,関連するモデルトレーニング戦略を体系的に検討する。
本研究は, 偏光, 時間-光, 構造光入力から変調特異的な利点を接続できる新しい手法を提案する。
様々な訓練信号を評価するために,単眼偏波から深さを推定できる新しいパイプラインを提案する。
微分可能解析モデルの反転は、シーンの幾何学と分極化とtof信号を結びつけ、自己教師付きおよびクロスモーダル学習を可能にする。
既存のマルチモーダルデータセットが存在しない場合は、カスタムメイドのマルチモーダルカメラリグを使用して、cromoを収集し、ビデオレートでキャプチャしたステレオ偏光、間接tof、構造化光深度を同期した最初のデータセットである。
挑戦的な映像シーンに対する大規模な実験により, 競合する単眼深度推定法よりも優れた質的, 定量的パイプラインの利点が確認できた。
関連論文リスト
- Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation [11.611045114232187]
最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。
フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。
多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。
シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-07-19T08:51:51Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - DeepAVO: Efficient Pose Refining with Feature Distilling for Deep Visual
Odometry [8.114855695727003]
本稿では, 深層学習(DL)の観点から, モノクラービジュアルオドメトリー(VO)について検討する。
本稿では、コナールニューラルネットワーク(CNN)を利用して、光フロー入力の異なる四分項に着目し、回転と変換を学習する新しい4分岐ネットワークを提案する。
屋外走行と屋内歩行のシナリオを含む様々なデータセットの実験により、提案されたDeepAVOは最先端のモノラル法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-20T17:05:31Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - End-to-end Learning for Inter-Vehicle Distance and Relative Velocity
Estimation in ADAS with a Monocular Camera [81.66569124029313]
本稿では,ディープニューラルネットワークのエンドツーエンドトレーニングに基づくカメラによる車間距離と相対速度推定手法を提案する。
提案手法の重要な特徴は,2つの時間的単眼フレームによって提供される複数の視覚的手がかりの統合である。
また,移動場における視線歪みの影響を緩和する車両中心サンプリング機構を提案する。
論文 参考訳(メタデータ) (2020-06-07T08:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。