論文の概要: MorphoSim: An Interactive, Controllable, and Editable Language-guided 4D World Simulator
- arxiv url: http://arxiv.org/abs/2510.04390v1
- Date: Sun, 05 Oct 2025 22:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.623282
- Title: MorphoSim: An Interactive, Controllable, and Editable Language-guided 4D World Simulator
- Title(参考訳): MorphoSim:対話型、制御可能、編集可能な4Dワールドシミュレータ
- Authors: Xuehai He, Shijie Zhou, Thivyanth Venkateswaran, Kaizhi Zheng, Ziyu Wan, Achuta Kadambi, Xin Eric Wang,
- Abstract要約: マルチビューの一貫性とオブジェクトレベルの制御を備えた4Dシーンを生成する言語ガイドフレームワークであるMorphoSimを紹介する。
このフレームワークは、軌跡誘導生成と機能フィールドの延長を統合し、完全な再生成なしにインタラクティブに編集を適用できる。
- 参考スコア(独自算出の注目度): 42.06769509897601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models that support controllable and editable spatiotemporal environments are valuable for robotics, enabling scalable training data, repro ducible evaluation, and flexible task design. While recent text-to-video models generate realistic dynam ics, they are constrained to 2D views and offer limited interaction. We introduce MorphoSim, a language guided framework that generates 4D scenes with multi-view consistency and object-level controls. From natural language instructions, MorphoSim produces dynamic environments where objects can be directed, recolored, or removed, and scenes can be observed from arbitrary viewpoints. The framework integrates trajectory-guided generation with feature field dis tillation, allowing edits to be applied interactively without full re-generation. Experiments show that Mor phoSim maintains high scene fidelity while enabling controllability and editability. The code is available at https://github.com/eric-ai-lab/Morph4D.
- Abstract(参考訳): 制御可能で編集可能な時空間環境をサポートする世界モデルは、スケーラブルなトレーニングデータ、再現可能な評価、柔軟なタスク設計を可能にするロボット工学にとって価値がある。
最近のテキスト・ビデオ・モデルは現実的なダイナミクスを生成するが、それらは2Dビューに制約され、限られたインタラクションを提供する。
マルチビューの一貫性とオブジェクトレベルの制御を備えた4Dシーンを生成する言語ガイドフレームワークであるMorphoSimを紹介する。
自然言語の指示から、MorphoSimは、オブジェクトを指示したり、色を変えたり、削除したりできる動的な環境を生成し、任意の視点からシーンを観察することができる。
このフレームワークは、軌跡誘導生成と機能フィールドの延長を統合し、完全な再生成なしにインタラクティブに編集を適用できる。
実験により、Mor phoSimは高いシーンの忠実さを維持しつつ、制御性と編集性を実現していることが示された。
コードはhttps://github.com/eric-ai-lab/Morph4Dで公開されている。
関連論文リスト
- SceneFoundry: Generating Interactive Infinite 3D Worlds [22.60801815197924]
SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
論文 参考訳(メタデータ) (2026-01-09T14:33:10Z) - Animate Any Character in Any World [61.112404900403284]
我々は,静的世界生成の現実性と構造的基盤を活用するAniXを紹介する。
ユーザは3DGSのシーンとキャラクタを提供し、そのキャラクターを自然言語で指示して、多様な振る舞いを実行できる。
AiXは、提供されたシーンとキャラクタとの視覚的忠実性を保った時間的コヒーレントなビデオクリップを合成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:18Z) - VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model [19.937724706042804]
Hunyuan-GameCraft-2は生成ゲームワールドモデリングのための命令駆動インタラクションの新しいパラダイムである。
我々のモデルでは,自然言語のプロンプトやキーボード,マウスの信号を通じてゲーム映像のコンテンツを制御することができる。
本モデルでは,時間的コヒーレントかつ因果的な対話型ゲームビデオを生成する。
論文 参考訳(メタデータ) (2025-11-28T18:26:39Z) - Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文 参考訳(メタデータ) (2024-12-20T08:25:15Z) - LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control [43.25983939699873]
本稿では,複雑なシーンにオブジェクトレベルの再構築を拡大し,インタラクティブなシーン再構築を推し進める。
複数のオブジェクトを効率的に再構成し,制御する,シーンレベルの言語埋め込み型対話型放射場LiveSceneを提案する。
論文 参考訳(メタデータ) (2024-06-23T07:26:13Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents [49.11254369459406]
ChatSimは、編集可能な3Dドライビングシーンシミュレーションを、外部デジタル資産を持つ自然言語コマンドで実現した最初のシステムである。
ChatSimは、フォトリアリスティックな結果を生成するために、新しいマルチカメラニューラルフィールド法を採用している。
論文 参考訳(メタデータ) (2024-02-08T15:26:28Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。