論文の概要: IL3D: A Large-Scale Indoor Layout Dataset for LLM-Driven 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2510.12095v1
- Date: Tue, 14 Oct 2025 03:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.164299
- Title: IL3D: A Large-Scale Indoor Layout Dataset for LLM-Driven 3D Scene Generation
- Title(参考訳): IL3D:LLM駆動3Dシーン生成のための大規模屋内レイアウトデータセット
- Authors: Wenxu Zhou, Kaixuan Nie, Hang Du, Dong Yin, Wei Huang, Siqiang Guo, Xiaobo Zhang, Pengbo Hu,
- Abstract要約: 大規模言語モデル(LLM)駆動の3Dシーン生成のための大規模データセットであるIL3Dを提案する。
IL3Dには、視覚言語タスクのための堅牢なマルチモーダル学習をサポートするために、インスタンスレベルの自然言語アノテーションが備わっている。
汎用的で堅牢な資源として、IL3Dは3Dシーン生成とインボディードインテリジェンスの研究を著しく進めている。
- 参考スコア(独自算出の注目度): 18.83991956103023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we present IL3D, a large-scale dataset meticulously designed for large language model (LLM)-driven 3D scene generation, addressing the pressing demand for diverse, high-quality training data in indoor layout design. Comprising 27,816 indoor layouts across 18 prevalent room types and a library of 29,215 high-fidelity 3D object assets, IL3D is enriched with instance-level natural language annotations to support robust multimodal learning for vision-language tasks. We establish rigorous benchmarks to evaluate LLM-driven scene generation. Experimental results show that supervised fine-tuning (SFT) of LLMs on IL3D significantly improves generalization and surpasses the performance of SFT on other datasets. IL3D offers flexible multimodal data export capabilities, including point clouds, 3D bounding boxes, multiview images, depth maps, normal maps, and semantic masks, enabling seamless adaptation to various visual tasks. As a versatile and robust resource, IL3D significantly advances research in 3D scene generation and embodied intelligence, by providing high-fidelity scene data to support environment perception tasks of embodied agents.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)による3Dシーン生成を念頭に設計した大規模データセットIL3Dを提案する。
27,816の屋内レイアウトと29,215の高忠実度3Dオブジェクトアセットからなるライブラリで構成され、IL3Dは、視覚言語タスクのための堅牢なマルチモーダル学習をサポートするために、インスタンスレベルの自然言語アノテーションに富んでいる。
LLMによるシーン生成を評価するための厳密なベンチマークを構築した。
実験結果から,IL3D上のLLMの制御微調整(SFT)は一般化を著しく改善し,他のデータセット上でのSFTの性能を上回っていることがわかった。
IL3Dは、ポイントクラウド、3Dバウンディングボックス、マルチビューイメージ、ディープマップ、通常のマップ、セマンティックマスクなど、柔軟なマルチモーダルデータエクスポート機能を提供する。
IL3Dは、多用途で堅牢な資源として、エンボディエージェントの環境認識タスクを支援するために高忠実なシーンデータを提供することで、3Dシーン生成とインボディードインテリジェンスの研究を著しく前進させる。
関連論文リスト
- 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文 参考訳(メタデータ) (2024-10-04T19:22:20Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。