論文の概要: Closing the Loop: Unified 3D Scene Generation and Immersive Interaction via LLM-RL Coupling
- arxiv url: http://arxiv.org/abs/2605.05711v1
- Date: Thu, 07 May 2026 05:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.547164
- Title: Closing the Loop: Unified 3D Scene Generation and Immersive Interaction via LLM-RL Coupling
- Title(参考訳): ループの閉鎖:LLM-RL結合による統一3次元シーン生成と没入的相互作用
- Authors: Anh H. Vo, Sungyo Lee, Phil-Joong Kim, Soo-Mi Choi, Yong-Guk Kim,
- Abstract要約: 本稿では,言語駆動型3Dシーン生成と没入型ユーザインタラクションのループを閉じる統一フレームワークを提案する。
生成とインタラクションを緊密に結合することにより、提案フレームワークはより応答性が高く、適応性があり、リアルなマルチメディア体験を可能にする。
- 参考スコア(独自算出の注目度): 1.2722697496405462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have significantly improved language-driven 3D content generation, but most existing approaches still treat scene generation and user interaction as separate processes, limiting the adaptability and immersive potential of interactive multimedia systems. This paper presents a unified framework that closes the loop between language-driven 3D scene generation and immersive user interaction. Given natural language instructions, the system first constructs structured scene representations using LLMs, and then optimizes spatial layouts via reinforcement learning under geometric and semantic constraints. The generated environments are deployed in a virtual reality setting to facilitate HRI-in-the-loop, where user interactions provide continuous feedback to align generated content with human perception and usability. By tightly coupling generation and interaction, the proposed framework enables more responsive, adaptive, and realistic multimedia experiences. Experiments on the ALFRED benchmark demonstrate state-of-the-art performance in task-based scene generation. Furthermore, qualitative results and user studies show consistent improvements in immersion, interaction quality, and task efficiency, highlighting the importance of closed-loop integration of generation and interaction for next-generation multimedia systems. Our project page can be found at https://proj-showcase.github.io/h3ds/.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は言語駆動型3Dコンテンツ生成を大幅に改善しているが、既存のアプローチの多くはシーン生成とユーザインタラクションを別々のプロセスとして扱い、インタラクティブなマルチメディアシステムの適応性と没入可能性を制限する。
本稿では,言語駆動型3Dシーン生成と没入型ユーザインタラクションのループを閉じる統一フレームワークを提案する。
自然言語命令を与えられたシステムは、まずLLMを用いて構造化されたシーン表現を構築し、次に幾何学的制約と意味論的制約の下で強化学習を通じて空間レイアウトを最適化する。
生成された環境は、HRI-in-the-loopを促進するために仮想現実環境にデプロイされ、ユーザインタラクションは、生成されたコンテンツを人間の知覚とユーザビリティに合わせるために、継続的なフィードバックを提供する。
生成とインタラクションを緊密に結合することにより、提案フレームワークはより応答性が高く、適応性があり、リアルなマルチメディア体験を可能にする。
ALFREDベンチマークの実験では、タスクベースのシーン生成における最先端のパフォーマンスが示されている。
さらに、定性的な結果とユーザスタディにより、次世代マルチメディアシステムにおける生成とインタラクションのクローズドループ統合の重要性が強調され、浸漬、相互作用品質、タスク効率が一貫した改善が見られた。
私たちのプロジェクトページはhttps://proj-showcase.github.io/h3ds/。
関連論文リスト
- SceneFoundry: Generating Interactive Infinite 3D Worlds [22.60801815197924]
SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
論文 参考訳(メタデータ) (2026-01-09T14:33:10Z) - REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - Yan: Foundational Interactive Video Generation [25.398980906541524]
Yanはインタラクティブなビデオ生成の基盤となるフレームワークで、シミュレーションや生成から編集まで、パイプライン全体をカバーしている。
高圧縮低遅延3D-VAE と KV-cache-based shift-window denoising inference を併用して設計する。
本稿では,インタラクティブなメカニクスシミュレーションを視覚的レンダリングから明確に切り離すハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-08-12T03:34:21Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。