論文の概要: Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2509.16721v1
- Date: Sat, 20 Sep 2025 15:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.944088
- Title: Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding
- Title(参考訳): Text-Scene:3Dシーン理解のためのScene-to-Language Parsingフレームワーク
- Authors: Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang,
- Abstract要約: Text-Sceneは3Dシーンを自動的にテキスト記述に解析してシーンを理解するフレームワークである。
幾何学解析とMLLMの両方を活用することで、Text-Sceneは正確で詳細で人間の解釈可能な記述を生成する。
- 参考スコア(独自算出の注目度): 38.97818584066075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enabling agents to understand and interact with complex 3D scenes is a fundamental challenge for embodied artificial intelligence systems. While Multimodal Large Language Models (MLLMs) have achieved significant progress in 2D image understanding, extending such capabilities to 3D scenes remains difficult: 1) 3D environment involves richer concepts such as spatial relationships, affordances, physics, layout, and so on, 2) the absence of large-scale 3D vision-language datasets has posed a significant obstacle. In this paper, we introduce Text-Scene, a framework that automatically parses 3D scenes into textual descriptions for scene understanding. Given a 3D scene, our model identifies object attributes and spatial relationships, and then generates a coherent summary of the whole scene, bridging the gap between 3D observation and language without requiring human-in-the-loop intervention. By leveraging both geometric analysis and MLLMs, Text-Scene produces descriptions that are accurate, detailed, and human-interpretable, capturing object-level details and global-level context. Experimental results on benchmarks demonstrate that our textual parses can faithfully represent 3D scenes and benefit downstream tasks. To evaluate the reasoning capability of MLLMs, we present InPlan3D, a comprehensive benchmark for 3D task planning, consisting of 3174 long-term planning tasks across 636 indoor scenes. We emphasize clarity and accessibility in our approach, aiming to make 3D scene content understandable through language. Code and datasets will be released.
- Abstract(参考訳): 複雑な3Dシーンを理解して対話するエージェントの育成は、人工知能システムにとって基本的な課題である。
MLLM(Multimodal Large Language Models)は2次元画像理解において大きな進歩を遂げているが、そのような能力を3次元シーンに拡張することは依然として困難である。
1)3次元環境は,空間的関係,余裕,物理,レイアウトなど,より豊かな概念を包含する。
2)大規模3次元視覚言語データセットの欠如は大きな障害となっている。
本稿では,シーン理解のためのテキスト記述に3Dシーンを自動的に解析するフレームワークであるText-Sceneを紹介する。
3Dシーンが与えられた場合,本モデルは物体の属性と空間的関係を識別し,その全体像のコヒーレントな要約を生成し,人間とループの介入を必要とせずに3D観察と言語間のギャップを埋める。
幾何学的解析とMLLMの両方を活用することで、Text-Sceneは正確で詳細で人間の解釈可能な記述を生成し、オブジェクトレベルの詳細とグローバルレベルのコンテキストをキャプチャする。
ベンチマーク実験の結果,テキスト解析は3Dシーンを忠実に表現し,下流の作業に役立てることができることがわかった。
MLLMの推論能力を評価するため、636の屋内シーンにわたる3174の長期計画タスクからなる3Dタスクプランニングのための総合的なベンチマークであるInPlan3Dを提案する。
我々は,3Dシーンのコンテンツを言語で理解できるようにすることを目的として,アプローチにおける明瞭さとアクセシビリティを強調した。
コードとデータセットがリリースされる。
関連論文リスト
- SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。