論文の概要: ActionParty: Multi-Subject Action Binding in Generative Video Games
- arxiv url: http://arxiv.org/abs/2604.02330v1
- Date: Thu, 02 Apr 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.995599
- Title: ActionParty: Multi-Subject Action Binding in Generative Video Games
- Title(参考訳): ActionParty: ジェネレーティブビデオゲームにおける多目的アクションバインディング
- Authors: Alexander Pondaven, Ziyi Wu, Igor Gilitschenski, Philip Torr, Sergey Tulyakov, Fabio Pizzati, Aliaksandr Siarohin,
- Abstract要約: ActionPartyは、ゲーム生成のための制御可能な多目的世界モデルである。
46の多様な環境において最大7人のプレイヤーを同時に制御できる最初のビデオワールドモデルを実証する。
- 参考スコア(独自算出の注目度): 117.52562594944679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.
- Abstract(参考訳): 近年のビデオ拡散の進展により、インタラクティブな環境をシミュレートできる「世界モデル」の開発が可能になった。
しかしながら、これらのモデルは主に単一エージェントの設定に制限されており、シーン内で複数のエージェントを同時に制御することができない。
本研究では,既存の映像拡散モデルにおけるアクションバインディングの基本的な問題に取り組み,特定のアクションと対応する課題を関連づけることに苦慮する。
本研究では,ゲーム生成のためのアクション制御可能な多目的世界モデルであるActionPartyを提案する。
被写体状態トークン、すなわち、シーン内の各被写体の状態を持続的にキャプチャする潜時変数を導入する。
状態トークンとビデオラテントを空間バイアス機構で共同でモデル化することにより、個々のアクション制御対象更新からグローバルなビデオフレームレンダリングを分離する。
我々は,Melting PotベンチマークでActionPartyを評価し,46の多様な環境において最大7人のプレイヤーを同時に制御できる最初のビデオワールドモデルを実証した。
以上の結果より, 動作追跡精度とアイデンティティの整合性が向上し, 複雑な相互作用による自己回帰的追跡が可能となった。
関連論文リスト
- DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning [82.28800081483224]
我々は,Omniモーション制御による多目的カスタマイズを実現する統合フレームワークであるDreamVideo-Omniを提案する。
複数対象のあいまいさを解決するために,グループとロールの埋め込みを導入し,特定のアイデンティティに移動信号を明示的に固定する。
これは、人間の嗜好に沿ったアイデンティティ保存を優先して、潜在空間における動き認識ID報酬を提供する。
論文 参考訳(メタデータ) (2026-03-12T17:59:12Z) - Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-12-09T18:59:57Z) - Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model [19.937724706042804]
Hunyuan-GameCraft-2は生成ゲームワールドモデリングのための命令駆動インタラクションの新しいパラダイムである。
我々のモデルでは,自然言語のプロンプトやキーボード,マウスの信号を通じてゲーム映像のコンテンツを制御することができる。
本モデルでは,時間的コヒーレントかつ因果的な対話型ゲームビデオを生成する。
論文 参考訳(メタデータ) (2025-11-28T18:26:39Z) - Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。