論文の概要: Text-to-Scene with Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2509.26091v1
- Date: Tue, 30 Sep 2025 11:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.513058
- Title: Text-to-Scene with Large Reasoning Models
- Title(参考訳): 大規模推論モデルを用いたテキスト・ツー・シーン
- Authors: Frédéric Berdoz, Luca A. Lanzendörfer, Nick Tuninga, Roger Wattenhofer,
- Abstract要約: Reason-3Dは大きな推論モデル(LRM)を利用したテキスト・ツー・シーンモデルである
Reason-3Dは、物理的、機能的、コンテキスト的属性をカバーするキャプションを使用してオブジェクト検索を統合する。
人間の評価された視覚的忠実度、制約への順守、資産検索品質において、従来の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 35.61634772862795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-driven scene synthesis allows users to generate complete 3D environments from textual descriptions. Current text-to-scene methods often struggle with complex geometries and object transformations, and tend to show weak adherence to complex instructions. We address these limitations by introducing Reason-3D, a text-to-scene model powered by large reasoning models (LRMs). Reason-3D integrates object retrieval using captions covering physical, functional, and contextual attributes. Reason-3D then places the selected objects based on implicit and explicit layout constraints, and refines their positions with collision-aware spatial reasoning. Evaluated on instructions ranging from simple to complex indoor configurations, Reason-3D significantly outperforms previous methods in human-rated visual fidelity, adherence to constraints, and asset retrieval quality. Beyond its contribution to the field of text-to-scene generation, our work showcases the advanced spatial reasoning abilities of modern LRMs. Additionally, we release the codebase to further the research in object retrieval and placement with LRMs.
- Abstract(参考訳): プロンプト駆動のシーン合成により、ユーザーはテキスト記述から完全な3D環境を作成できる。
現在のテキスト・ツー・シーンの手法は複雑な幾何学やオブジェクト変換に苦しむことが多く、複雑な命令に弱い従順性を示す傾向がある。
本稿では,大きな推論モデル(LRM)を用いたテキスト・ツー・シーン・モデルであるReason-3Dを導入することで,これらの制約に対処する。
Reason-3Dは、物理的、機能的、コンテキスト的属性をカバーするキャプションを使用してオブジェクト検索を統合する。
Reason-3Dは、暗黙的かつ明示的なレイアウト制約に基づいて選択されたオブジェクトを配置し、衝突を意識した空間的推論によってそれらの位置を洗練する。
簡単な室内構成から複雑な構成に至るまでの指示に基づいて評価されたReason-3Dは、人間の評価された視覚的忠実さ、制約への固執、資産の検索品質において、従来の方法よりも著しく優れていた。
テキスト・ツー・シーン・ジェネレーションの分野への貢献以外にも,現代のLEMの高度な空間推論能力を示す。
さらに,LRMを用いたオブジェクト検索と配置の研究をさらに進めるために,コードベースをリリースする。
関連論文リスト
- Causal Reasoning Elicits Controllable 3D Scene Generation [35.22855710229319]
CausalStructは3Dシーン生成に因果推論を組み込む新しいフレームワークである。
ノードがオブジェクトや属性を表現する因果グラフを構築し、エッジが因果依存性と物理的制約をエンコードする。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
論文 参考訳(メタデータ) (2025-09-18T01:03:21Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。
グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文 参考訳(メタデータ) (2025-07-19T09:19:16Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - ReSpace: Text-Driven 3D Indoor Scene Synthesis and Editing with Preference Alignment [8.954070942391603]
ReSpaceはテキスト駆動型屋内シーン合成と編集のための生成フレームワークである。
教師付き微調整と選好アライメントを組み合わせた二段階学習手法を応用した。
シーン編集にはゼロショットLLMを用いてオブジェクトの削除と追加のプロンプトを行う。
論文 参考訳(メタデータ) (2025-06-03T05:22:04Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation [36.44409268300039]
Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
論文 参考訳(メタデータ) (2025-05-05T17:59:58Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。