論文の概要: Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models
- arxiv url: http://arxiv.org/abs/2605.18601v1
- Date: Mon, 18 May 2026 16:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.005093
- Title: Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models
- Title(参考訳): インセンテーション:マルチエンティティビデオワールドモデルのためのアクションインタフェースとしての自然言語
- Authors: Shangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng,
- Abstract要約: Incantationは、ラテンフレームごとの自然言語コンディショニングを備えた世界初のインタラクティブなビデオワールドモデルである。
我々は、クロス・エンタリティ・トランスファーとアウト・オブ・ボキャブラリ・プロンプトのAction-Indexベースラインを超えている。
我々は、同じアーキテクチャとトレーニングのレシピを『The King of Fighters』に適用し、参加者ごとのアクションボキャブラリスロットだけを変更する。
- 参考スコア(独自算出の注目度): 18.614835778452345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene-level captions) bind action semantics to specific entities or engines at design time. We propose natural language as the interface to unlock expressiveness that no prior interface can achieve, and we present Incantation, the first interactive video world model with per-latent-frame (0.25 s) natural-language conditioning that supports simultaneous multi-entity control and concept-level cross-entity transfer beyond any fixed rendering pipeline. We pair a pretrained bidirectional video backbone with frame-local text cross-attention, and enable real-time long-horizon streaming through ODE-initialized Self-Forcing distillation with a RoPE-decoupled sliding KV-cache. We surpass the Action-Index baseline on cross-entity transfer (89% vs. 43%) and out-of-vocabulary prompts (90% vs. 0%), and our 2-step student sustains 19.7 FPS at 480p with stable FVD over 2-hour rollouts. We further apply the same architecture and training recipe to The King of Fighters, changing only the per-entity action vocabulary slots. We have released a preview subset of the Incantation dataset at https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, containing manually collected Elden Ring player-boss combat clips with structured action-oriented metadata. Larger-scale Elden Ring and KOF data will be released with the full project.
- Abstract(参考訳): 現代のインタラクティブなビデオワールドモデルは、印象的な視覚的忠実さを達成しているが、微細なマルチエンタリティ制御とクロスエンタリティ、クロスワールド一般化を欠いている。
標準制御プロトコル(例えば、アニメーションID、デバイス入力、シーンレベルのキャプション)は、特定のエンティティやエンジンに特定のアクションセマンティクスをバインドします。
本稿では,従来のインタフェースでは達成できない表現力の解放のためのインタフェースとして自然言語を提案する。Incantationは,任意の固定レンダリングパイプラインを超えて,同時マルチエンタリティ制御と概念レベルのクロスエンタリティ転送をサポートする,ラテントフレーム(0.25秒)当たりの自然言語条件付き初の対話型ビデオワールドモデルである。
プレトレーニングされた双方向ビデオバックボーンとフレームローカルテキストのクロスアテンションとをペアにし,ORD-初期化自己強制蒸留とRoPE-分離スライディングKV-cacheによるリアルタイム長軸ストリーミングを実現する。
クロスエンタリティ・トランスファーのAction-Indexベースライン(89% vs. 43%)とアウト・オブ・ボキャブラリ・プロンプト(90% vs. 0%)を上回り、2ステップの学生は2時間のロールアウトで19.7 FPSを480pで維持し、安定したFVDを2時間のロールアウトで維持する。
さらに、同じアーキテクチャとトレーニングのレシピを『The King of Fighters』に適用し、参加者ごとのアクションボキャブラリスロットだけを変更します。
我々はIncantationデータセットのプレビューサブセットをhttps://huggingface.co/datasets/zhush/incantation-elden-ring-scenesでリリースしました。
大規模なElden RingとKOFデータは、完全なプロジェクトとともにリリースされる。
関連論文リスト
- CLAW: Composable Language-Annotated Whole-body Motion Generation [55.99805728566105]
CLAWは,言語を付加した全身運動データをスケーラブルに生成するためのパイプラインである。
CLAWは運動プランナーから運動プリミティブを構成し、動き、方向、速度、骨盤の高さ、持続時間によってパラメータ化される。
低レベルコントローラは、これらの参照を MuJoCo シミュレーションで追跡し、物理的に接地された軌道を生成する。
論文 参考訳(メタデータ) (2026-04-13T10:02:04Z) - Olaf-World: Orienting Latent Actions for Video World Modeling [100.96069208914957]
アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
大規模受動的ビデオから行動条件付きビデオワールドモデルを事前訓練するパイプラインであるOraf-Worldを紹介する。
論文 参考訳(メタデータ) (2026-02-10T18:58:41Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。