論文の概要: FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2509.01232v1
- Date: Mon, 01 Sep 2025 08:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.593223
- Title: FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework
- Title(参考訳): FantasyHSI: グラフベースのマルチエージェントフレームワークによるビデオ生成中心の4Dヒューマン合成
- Authors: Lingzhou Mu, Qiang Wang, Fan Jiang, Mengchao Wang, Yaqi Fan, Mu Xu, Kai Zhang,
- Abstract要約: HSI(Human-Scene Interaction)は、複雑な環境の中で現実的な人間の行動を生成する。
HSIは、長期の高レベルのタスクの処理と、見えないシーンへの一般化において、課題に直面している。
本稿では,ビデオ生成とマルチエージェントシステムを中心とした新しいHSIフレームワークであるFantasyHSIを紹介する。
- 参考スコア(独自算出の注目度): 10.386464385736842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Scene Interaction (HSI) seeks to generate realistic human behaviors within complex environments, yet it faces significant challenges in handling long-horizon, high-level tasks and generalizing to unseen scenes. To address these limitations, we introduce FantasyHSI, a novel HSI framework centered on video generation and multi-agent systems that operates without paired data. We model the complex interaction process as a dynamic directed graph, upon which we build a collaborative multi-agent system. This system comprises a scene navigator agent for environmental perception and high-level path planning, and a planning agent that decomposes long-horizon goals into atomic actions. Critically, we introduce a critic agent that establishes a closed-loop feedback mechanism by evaluating the deviation between generated actions and the planned path. This allows for the dynamic correction of trajectory drifts caused by the stochasticity of the generative model, thereby ensuring long-term logical consistency. To enhance the physical realism of the generated motions, we leverage Direct Preference Optimization (DPO) to train the action generator, significantly reducing artifacts such as limb distortion and foot-sliding. Extensive experiments on our custom SceneBench benchmark demonstrate that FantasyHSI significantly outperforms existing methods in terms of generalization, long-horizon task completion, and physical realism. Ours project page: https://fantasy-amap.github.io/fantasy-hsi/
- Abstract(参考訳): HSI(Human-Scene Interaction)は、複雑な環境で現実的な人間の行動を生成することを目指しているが、長期的な高レベルなタスクを扱い、目に見えないシーンに一般化する上で大きな課題に直面している。
これらの制約に対処するため,ビデオ生成とマルチエージェントシステムを中心とした新しいHSIフレームワークであるFantasyHSIを紹介した。
複雑なインタラクションプロセスを動的指向グラフとしてモデル化し,協調的なマルチエージェントシステムを構築する。
本システムは、環境認識と高レベルパス計画のためのシーンナビゲータエージェントと、長距離目標を原子行動に分解する計画エージェントとを備える。
批判的なことに、生成された行動と計画された経路とのずれを評価することによって、クローズドループフィードバック機構を確立する批評家エージェントを導入する。
これにより、生成モデルの確率性に起因する軌道のドリフトの動的補正が可能となり、長期の論理的一貫性が保証される。
生成した動きの物理的現実性を高めるために,直接選好最適化(DPO)を用いてアクションジェネレータを訓練し,手足の歪みやフットスライディングなどのアーティファクトを著しく低減する。
カスタムSceneBenchベンチマークの大規模な実験により、FantasyHSIは一般化、長距離タスク完了、物理リアリズムの点で既存の手法よりも優れていることが示された。
私たちのプロジェクトページ:https://fantasy-amap.github.io/fantasy-hsi/
関連論文リスト
- Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning [6.255814224573073]
SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
論文 参考訳(メタデータ) (2025-08-18T15:20:46Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments [41.80879866951797]
Hi-Dyna Graphは階層的な動的シーングラフアーキテクチャで、永続的なグローバルレイアウトと局所的な動的セマンティクスを統合し、ロボットの自律性を具現化する。
大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
論文 参考訳(メタデータ) (2025-05-30T03:35:29Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent
Diffusion Models [10.057312592344507]
本研究では,SceneDMと呼ばれる拡散モデルに基づく新しいフレームワークを提案する。
SceneDMはSim Agents Benchmarkで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-27T11:39:27Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。