論文の概要: A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes
- arxiv url: http://arxiv.org/abs/2403.07469v1
- Date: Tue, 12 Mar 2024 10:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:14:46.611923
- Title: A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes
- Title(参考訳): 3次元高密度キャプションの包括的調査 : 3次元シーンにおけるオブジェクトの局所化と記述
- Authors: Ting Yu, Xiaojun Lin, Shuhui Wang, Weiguo Sheng, Qingming Huang, Jun
Yu
- Abstract要約: 3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
- 参考スコア(独自算出の注目度): 80.20670062509723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three-Dimensional (3D) dense captioning is an emerging vision-language
bridging task that aims to generate multiple detailed and accurate descriptions
for 3D scenes. It presents significant potential and challenges due to its
closer representation of the real world compared to 2D visual captioning, as
well as complexities in data collection and processing of 3D point cloud
sources. Despite the popularity and success of existing methods, there is a
lack of comprehensive surveys summarizing the advancements in this field, which
hinders its progress. In this paper, we provide a comprehensive review of 3D
dense captioning, covering task definition, architecture classification,
dataset analysis, evaluation metrics, and in-depth prosperity discussions.
Based on a synthesis of previous literature, we refine a standard pipeline that
serves as a common paradigm for existing methods. We also introduce a clear
taxonomy of existing models, summarize technologies involved in different
modules, and conduct detailed experiment analysis. Instead of a chronological
order introduction, we categorize the methods into different classes to
facilitate exploration and analysis of the differences and connections among
existing techniques. We also provide a reading guideline to assist readers with
different backgrounds and purposes in reading efficiently. Furthermore, we
propose a series of promising future directions for 3D dense captioning by
identifying challenges and aligning them with the development of related tasks,
offering valuable insights and inspiring future research in this field. Our aim
is to provide a comprehensive understanding of 3D dense captioning, foster
further investigations, and contribute to the development of novel applications
in multimedia and related domains.
- Abstract(参考訳): 3次元の高密度キャプション(3D)は、3Dシーンの詳細な正確な記述を複数生成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションに比べて現実世界の表現が密接なため、データ収集や3Dポイントクラウドソースの処理が複雑になるため、大きな可能性と課題が提示される。
既存の手法の人気と成功にもかかわらず、この分野の進歩を要約した包括的な調査が欠如しており、その進歩を妨げている。
本稿では, タスク定義, アーキテクチャ分類, データセット分析, 評価指標, および深い繁栄に関する議論を含む, 3次元密集キャプションの包括的レビューを行う。
従来の文献の合成に基づいて,既存の手法の共通パラダイムとして機能する標準的なパイプラインを洗練する。
また,既存のモデルを明確に分類し,異なるモジュールに関連する技術を要約し,詳細な実験分析を行う。
年代順の導入ではなく,既存の技術間の差異や関係の探索と分析を容易にするために,異なるクラスに分類する。
また、異なる背景や目的の読者を効率的に読むための読解ガイドラインも提供している。
さらに,課題を特定し,関連する課題と整合させ,価値ある洞察を提供し,今後の研究を刺激することで,将来的な3次元高密度キャプションの方向性を示す。
本研究の目的は,3次元密集キャプションの包括的理解,さらなる調査の促進,マルチメディア関連分野における新規アプリケーションの開発に寄与することにある。
関連論文リスト
- 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。
本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T09:39:05Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - 3D objects and scenes classification, recognition, segmentation, and
reconstruction using 3D point cloud data: A review [5.85206759397617]
3次元(3D)点雲解析は、現実的な画像やマシンビジョンにおいて魅力的な対象の1つとなっている。
最近、ディープラーニングモデルのような様々な技術を用いて、新しい戦略の開発に多大な努力が注がれている。
オブジェクトやシーンの検出,認識,セグメンテーション,再構築など,3Dポイントで行うさまざまなタスクについて検討した。
論文 参考訳(メタデータ) (2023-06-09T15:45:23Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。