論文の概要: AVS-Net: Audio-Visual Scale Net for Self-supervised Monocular Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2412.01637v1
- Date: Mon, 02 Dec 2024 15:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:58.398034
- Title: AVS-Net: Audio-Visual Scale Net for Self-supervised Monocular Metric Depth Estimation
- Title(参考訳): AVS-Net:自己教師付き単眼深度推定のためのオーディオ・ビジュアル・スケール・ネット
- Authors: Xiaohu Liu, Sascha Hornauer, Fabien Moutarde, Jialiang Lu,
- Abstract要約: 単眼ビデオからのメトリクス深度予測は、データセット間の悪い一般化に苦しむ。
多視点再構成を用いた自己教師付きトレーニングは、大規模な自然ビデオの恩恵を受けることができるが、適切なスケールを提供しない。
我々は,いくつかの最先端手法の予測を改善する方法と,自己監督深度手法のスケール補正方法を示す。
- 参考スコア(独自算出の注目度): 7.538649401550403
- License:
- Abstract: Metric depth prediction from monocular videos suffers from bad generalization between datasets and requires supervised depth data for scale-correct training. Self-supervised training using multi-view reconstruction can benefit from large scale natural videos but not provide correct scale, limiting its benefits. Recently, reflecting audible Echoes off objects is investigated for improved depth prediction and was shown to be sufficient to reconstruct objects at scale even without a visual signal. Because Echoes travel at fixed speed, they have the potential to resolve ambiguities in object scale and appearance. However, predicting depth end-to-end from sound and vision cannot benefit from unsupervised depth prediction approaches, which can process large scale data without sound annotation. In this work we show how Echoes can benefit depth prediction in two ways: When learning metric depth learned from supervised data and as supervisory signal for scale-correct self-supervised training. We show how we can improve the predictions of several state-of-the-art approaches and how the method can scale-correct a self-supervised depth approach.
- Abstract(参考訳): 単眼ビデオからのメトリクス深度予測はデータセット間の悪い一般化に悩まされており、スケール修正トレーニングには教師付き深度データが必要である。
マルチビュー再構成を用いた自己指導型トレーニングは、大規模な自然ビデオの恩恵を受けることができるが、適切なスケールを提供しないため、その利点は制限される。
近年,物体から反射する音響エコーは深度予測の改善のために検討されており,視覚信号がなくても大規模に物体を再構成するのに十分であることが示された。
エコーは一定の速度で移動するため、物体のスケールや外観の曖昧さを解消する可能性がある。
しかし、音と視覚から奥行きを予測することは、教師なしの深度予測アプローチの恩恵を受けることができず、音のアノテーションを使わずに大規模データを処理できる。
教師付きデータから学習したメトリクス深度と、スケール修正された自己教師付きトレーニングのための監視信号の2つの方法により、Echoが深度予測にどう役立つかを示す。
我々は,いくつかの最先端アプローチの予測を改善する方法と,自己監督深度アプローチのスケール修正方法を示す。
関連論文リスト
- Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation [60.780823530087446]
画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
論文 参考訳(メタデータ) (2021-09-13T17:57:24Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。