論文の概要: DenseScan: Advancing 3D Scene Understanding with 2D Dense Annotation
- arxiv url: http://arxiv.org/abs/2512.00226v1
- Date: Fri, 28 Nov 2025 22:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.120898
- Title: DenseScan: Advancing 3D Scene Understanding with 2D Dense Annotation
- Title(参考訳): DenseScan:Dense Annotationによる3Dシーン理解の促進
- Authors: Zirui Wang, Tao Zhang,
- Abstract要約: DenseScanは、自動パイプラインによって生成された詳細なマルチレベル記述を備えた、新しいデータセットである。
提案手法は,シーン要素の濃密なキャプションを可能にし,コンテキストに敏感な詳細をキャプチャするオブジェクトレベルの記述を包括的に確保する。
幾何学的詳細と意味的豊かさを結合することにより、DenseScanは、詳細なビジュアル言語ナビゲーションから対話型質問応答まで、下流タスクの範囲を広げる。
- 参考スコア(独自算出の注目度): 24.911632300638534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D understanding is a key capability for real-world AI assistance. High-quality data plays an important role in driving the development of the 3D understanding community. Current 3D scene understanding datasets often provide geometric and instance-level information, yet they lack the rich semantic annotations necessary for nuanced visual-language tasks.In this work, we introduce DenseScan, a novel dataset with detailed multi-level descriptions generated by an automated pipeline leveraging multi-view 2D images and multimodal large language models (MLLMs). Our approach enables dense captioning of scene elements, ensuring comprehensive object-level descriptions that capture context-sensitive details. Furthermore, we extend these annotations through scenario-based question generation, producing high-level queries that integrate object properties, spatial relationships, and scene context. By coupling geometric detail with semantic richness, DenseScan broadens the range of downstream tasks, from detailed visual-language navigation to interactive question answering. Experimental results demonstrate that our method significantly enhances object-level understanding and question-answering performance in 3D environments compared to traditional annotation pipelines. We release both the annotated dataset and our annotation pipeline to facilitate future research and applications in robotics, augmented reality, and beyond. Through DenseScan, we aim to catalyze new avenues in 3D scene understanding, allowing researchers and practitioners to tackle the complexities of real-world environments with richer, more contextually aware annotations.
- Abstract(参考訳): 3D理解は、現実世界のAI支援の鍵となる能力である。
高品質なデータは、3D理解コミュニティの発展を促進する上で重要な役割を果たす。
現在の3Dシーン理解データセットは、幾何学的およびインスタンスレベルの情報を提供することが多いが、ニュアンス化された視覚言語タスクに必要なリッチな意味アノテーションは欠如している。この記事では、マルチビュー2D画像とマルチモーダル大言語モデル(MLLM)を活用する自動パイプラインによって生成された詳細なマルチレベル記述を持つ新しいデータセットであるDenseScanを紹介する。
提案手法は,シーン要素の濃密なキャプションを可能にし,コンテキストに敏感な詳細をキャプチャするオブジェクトレベルの記述を包括的に確保する。
さらに、これらのアノテーションをシナリオベースの質問生成によって拡張し、オブジェクトの特性、空間関係、シーンコンテキストを統合する高レベルなクエリを生成する。
幾何学的詳細と意味的豊かさを結合することにより、DenseScanは、詳細なビジュアル言語ナビゲーションから対話型質問応答まで、下流タスクの範囲を広げる。
実験結果から,従来のアノテーションパイプラインと比較して,3次元環境におけるオブジェクトレベルの理解と質問応答性能が著しく向上することが示唆された。
アノテーション付きデータセットとアノテーションパイプラインの両方をリリースし、ロボット工学、拡張現実などにおける将来の研究と応用を促進する。
DenseScanを通じて、3Dシーン理解における新たな道の触媒化を目指しており、研究者や実践者はよりリッチで文脈的に認識されたアノテーションで現実世界環境の複雑さに取り組むことができる。
関連論文リスト
- Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。
グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文 参考訳(メタデータ) (2025-07-19T09:19:16Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。