論文の概要: Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation
- arxiv url: http://arxiv.org/abs/2310.15676v1
- Date: Tue, 24 Oct 2023 09:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 19:29:53.511881
- Title: Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation
- Title(参考訳): マルチモーダル3次元シーン理解の最近の進歩:包括的調査と評価
- Authors: Yinjie Lei, Zixuan Wang, Feng Chen, Guoqing Wang, Peng Wang and Yang
Yang
- Abstract要約: マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。
本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
- 参考スコア(独自算出の注目度): 28.417029383793068
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal 3D scene understanding has gained considerable attention due to
its wide applications in many areas, such as autonomous driving and
human-computer interaction. Compared to conventional single-modal 3D
understanding, introducing an additional modality not only elevates the
richness and precision of scene interpretation but also ensures a more robust
and resilient understanding. This becomes especially crucial in varied and
challenging environments where solely relying on 3D data might be inadequate.
While there has been a surge in the development of multi-modal 3D methods over
past three years, especially those integrating multi-camera images (3D+2D) and
textual descriptions (3D+language), a comprehensive and in-depth review is
notably absent. In this article, we present a systematic survey of recent
progress to bridge this gap. We begin by briefly introducing a background that
formally defines various 3D multi-modal tasks and summarizes their inherent
challenges. After that, we present a novel taxonomy that delivers a thorough
categorization of existing methods according to modalities and tasks, exploring
their respective strengths and limitations. Furthermore, comparative results of
recent approaches on several benchmark datasets, together with insightful
analysis, are offered. Finally, we discuss the unresolved issues and provide
several potential avenues for future research.
- Abstract(参考訳): マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
従来の単一モードの3D理解と比較して、付加的なモダリティの導入は、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を保証する。
これは、3Dデータのみに依存することが不十分な環境において、特に重要になる。
マルチカメラ画像(3D+2D)とテキスト記述(3D+言語)を統合するようなマルチモーダルな3D手法の開発が過去3年間に進んでいるが、包括的かつ詳細なレビューは特に欠落している。
本稿では,このギャップを埋めるための最近の進歩を体系的に調査する。
まず、様々な3次元マルチモーダルタスクを形式的に定義し、それらの固有の課題を要約する背景を紹介する。
その後,既存の手法をモダリティやタスクに応じて徹底的に分類し,それぞれの強みや限界を探索する新しい分類法を提案する。
さらに、いくつかのベンチマークデータセットに対する最近のアプローチと洞察に富んだ分析の比較結果も提供される。
最後に,未解決問題について考察し,今後の研究への道筋について述べる。
関連論文リスト
- Multi-modal Situated Reasoning in 3D Scenes [32.800524889357305]
大規模マルチモーダル位置推論データセットであるMSQA(Multi-modal Situated Question Answering)を提案する。
MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。
また,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションに対するモデルの位置的推論を評価する。
論文 参考訳(メタデータ) (2024-09-04T02:37:38Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - 3D Multiple Object Tracking on Autonomous Driving: A Literature Review [25.568952977339]
3次元多物体追跡(3D MOT)は、自律運転において重要な領域である。
3D MOTはその最重要課題にもかかわらず、無数の困難に直面している。
論文 参考訳(メタデータ) (2023-09-27T05:32:26Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。