論文の概要: Beyond Image to Depth: Improving Depth Prediction using Echoes
- arxiv url: http://arxiv.org/abs/2103.08468v1
- Date: Mon, 15 Mar 2021 15:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 17:42:28.552380
- Title: Beyond Image to Depth: Improving Depth Prediction using Echoes
- Title(参考訳): 画像から深度まで:エコーによる深度予測の改善
- Authors: Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma
- Abstract要約: 本研究では,映像の深度を予測するために,音声(echoes)と視覚的モダリティを組み合わせて材料特性を明示的に組み込んだマルチモーダル融合手法を提案する。
本研究では,Replicaデータセットを用いた実験により,最新のオーディオビジュアル深度予測手法と比較し,RMSEの28%の改善が得られたことを実証的に示した。
- 参考スコア(独自算出の注目度): 19.41528806102547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of estimating depth with multi modal audio visual
data. Inspired by the ability of animals, such as bats and dolphins, to infer
distance of objects with echolocation, some recent methods have utilized echoes
for depth estimation. We propose an end-to-end deep learning based pipeline
utilizing RGB images, binaural echoes and estimated material properties of
various objects within a scene. We argue that the relation between image,
echoes and depth, for different scene elements, is greatly influenced by the
properties of those elements, and a method designed to leverage this
information can lead to significantly improve depth estimation from audio
visual inputs. We propose a novel multi modal fusion technique, which
incorporates the material properties explicitly while combining audio (echoes)
and visual modalities to predict the scene depth. We show empirically, with
experiments on Replica dataset, that the proposed method obtains 28%
improvement in RMSE compared to the state-of-the-art audio-visual depth
prediction method. To demonstrate the effectiveness of our method on larger
dataset, we report competitive performance on Matterport3D, proposing to use it
as a multimodal depth prediction benchmark with echoes for the first time. We
also analyse the proposed method with exhaustive ablation experiments and
qualitative results. The code and models are available at
https://krantiparida.github.io/projects/bimgdepth.html
- Abstract(参考訳): マルチモーダルオーディオビジュアルデータを用いた深度推定の課題に対処します。
コウモリやイルカといった動物のエコーロケーションを持つ物体の距離を推定する能力に触発された最近の手法では、エコーを深度推定に利用している。
RGB画像、バイノーラルエコー、およびシーン内のさまざまなオブジェクトの推定材料特性を利用したエンドツーエンドのディープラーニングベースのパイプラインを提案します。
異なるシーン要素に対する画像,エコー,奥行きの関係は,これらの要素の特性に大きく影響し,この情報を利用するように設計された手法は,視聴覚入力からの奥行き推定を大幅に改善する可能性がある。
本研究では,映像の深度を予測するために,音声(echoes)と視覚的モダリティを組み合わせて材料特性を明示的に組み込んだマルチモーダル融合手法を提案する。
本研究では,Replicaデータセットを用いた実験により,最新のオーディオビジュアル深度予測手法と比較し,RMSEの28%の改善が得られたことを実証的に示した。
大規模データセットにおける本手法の有効性を示すために,matterport3dにおける競合性能を報告し,エコーを用いたマルチモーダル深度予測ベンチマークとして利用することを提案する。
また,提案手法を完全アブレーション実験と定性的な結果を用いて解析する。
コードとモデルはhttps://krantiparida.github.io/projects/bimgdepth.htmlで入手できる。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Boosting Weakly Supervised Object Detection using Fusion and Priors from
Hallucinated Depth [33.66537809438079]
弱教師付き物体検出(WSOD)の性能向上のための増幅器手法を提案する。
言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を識別するために、深さを計算します。
提案手法は,最新の2つのWSOD法上に実装することで,6つのデータセットに対して評価を行う。
論文 参考訳(メタデータ) (2023-03-20T08:26:29Z) - Depth Estimation maps of lidar and stereo images [12.684545950979187]
本稿では,ライダーデータとステレオ画像に基づく深度推定の評価と性能に着目した。
また,深度推定性能の最適化について詳述する。
論文 参考訳(メタデータ) (2022-12-22T14:32:55Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Depth Refinement for Improved Stereo Reconstruction [13.941756438712382]
立体画像からの深度推定の現在の技術は、なおも内蔵の欠点に悩まされている。
簡単な解析により、深度誤差は物体の距離に2乗比例することが明らかになった。
本研究では,深度推定に改良ネットワークを用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T12:21:08Z) - Dual Pixel Exploration: Simultaneous Depth Estimation and Image
Restoration [77.1056200937214]
本研究では,ぼかしと深度情報をリンクするDPペアの形成について検討する。
本稿では,画像の深さを共同で推定し,復元するためのエンドツーエンドDDDNet(DPベースのDepth and De Network)を提案する。
論文 参考訳(メタデータ) (2020-12-01T06:53:57Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。