論文の概要: Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision
- arxiv url: http://arxiv.org/abs/2207.01136v1
- Date: Sun, 3 Jul 2022 22:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:23:18.860986
- Title: Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision
- Title(参考訳): 視野を超えて:エコーと視覚で3D環境を知覚する
- Authors: Lingyu Zhu, Esa Rahtu, Hang Zhao
- Abstract要約: 本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。
本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
- 参考スコア(独自算出の注目度): 26.499243854488284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on perceiving and navigating 3D environments using echoes
and RGB image. In particular, we perform depth estimation by fusing RGB image
with echoes, received from multiple orientations. Unlike previous works, we go
beyond the field of view of the RGB and estimate dense depth maps for
substantially larger parts of the environment. We show that the echoes provide
holistic and in-expensive information about the 3D structures complementing the
RGB image. Moreover, we study how echoes and the wide field-of-view depth maps
can be utilised in robot navigation. We compare the proposed methods against
recent baselines using two sets of challenging realistic 3D environments:
Replica and Matterport3D. The implementation and pre-trained models will be
made publicly available.
- Abstract(参考訳): 本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に,複数の方向から受信したエコーを用いたrgb画像を用いて深度推定を行う。
これまでの研究とは異なり、rgbの視野を超えて、環境のかなり大きな部分の密集した深さマップを推定します。
エコーは,rgb像を補完する3次元構造について,総括的かつ非拡張的な情報を提供する。
さらに,ロボットナビゲーションにおいてエコーと広視野深度マップをどのように利用できるかを検討した。
本研究では,現実的な3次元環境であるreplicaとmatterport3dを用いて,提案手法と最近のベースラインを比較した。
実装と事前訓練されたモデルは公開されます。
関連論文リスト
- Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB [48.31210455404533]
ヒートマップに基づく3Dポーズ推定器は、推定時に与えられるRGBフレームから深度情報を幻覚することができる。
深度情報は、RGBベースの幻覚ネットワークを強制して、深度データのみに基づいて事前訓練されたバックボーンに類似した特徴を学習することによって、トレーニング中にのみ使用される。
論文 参考訳(メタデータ) (2024-09-17T11:59:34Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion [6.297023466646343]
3Dセマンティックシーンコンプリート(SSC)は、自律運転やロボットシステムの分野に適用可能な、密集した幾何学的および意味的なシーン表現を提供することができる。
ステレオ画像(またはRGBD画像)から暗黙的な深度情報をフル活用して3次元形状の復元を支援する,OccDepth という最初のステレオSSC手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:35:03Z) - BS3D: Building-scale 3D Reconstruction from RGB-D Images [25.604775584883413]
本稿では,消費者向け深度カメラを用いた大規模3次元再構築のための使い易いフレームワークを提案する。
複雑で高価な買収設定とは異なり、当社のシステムはクラウドソーシングを可能にする。
論文 参考訳(メタデータ) (2023-01-03T11:46:14Z) - BIPS: Bi-modal Indoor Panorama Synthesis via Residual Depth-aided
Adversarial Learning [26.24526760567159]
本稿では,新しいバイモーダル(RGB-D)パノラマ合成フレームワークを提案する。
我々は、RGB-Dパノラマが多くのアプリケーションに完全な3Dモデルを提供できる屋内環境に焦点を当てる。
本手法は,高品質な室内RGB-Dパノラマを合成し,リアルな室内3次元モデルを提供する。
論文 参考訳(メタデータ) (2021-12-12T08:20:01Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image [34.79657678041356]
本稿では,1枚のRGB-D画像から完全かつ詳細な3次元人間を再構築する高速対角学習法を提案する。
一般消費者のRGB-Dセンサーを使用すれば、NurmalGANは20fpsで完全な3D人間の再構築結果を生成することができる。
論文 参考訳(メタデータ) (2020-07-30T09:35:46Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。