論文の概要: Olaf-World: Orienting Latent Actions for Video World Modeling
- arxiv url: http://arxiv.org/abs/2602.10104v1
- Date: Tue, 10 Feb 2026 18:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.76864
- Title: Olaf-World: Orienting Latent Actions for Video World Modeling
- Title(参考訳): Olaf-World: ビデオワールドモデリングのための遅延アクションの指向
- Authors: Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou,
- Abstract要約: アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
大規模受動的ビデオから行動条件付きビデオワールドモデルを事前訓練するパイプラインであるOraf-Worldを紹介する。
- 参考スコア(独自算出の注目度): 100.96069208914957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce Seq$Δ$-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.
- Abstract(参考訳): アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
潜在アクション学習は、ラベルのないビデオから制御インターフェイスを抽出することを約束するが、学習した潜在者は、シーン固有の手がかりを絡み合わせ、共有座標系を欠いているため、コンテキストをまたぐ移動に失敗することが多い。
これは、標準的な目的が各クリップ内でのみ動作するため、コンテキスト間でアクションセマンティクスを調整するメカニズムが提供されないためである。
私たちのキーとなる洞察は、アクションは観測できないが、それらの意味的な効果は観測可能であり、共有参照として機能できるということです。
我々はSeq$$-REPAを紹介した。Seq$$-REPAはシーケンスレベルの制御-効果アライメントの目的であり、凍結した自己教師型ビデオエンコーダと時間的特徴の相違を緩和する。
そこで我々は,大規模受動的ビデオから行動条件付きビデオワールドモデルを事前学習するパイプラインOraf-Worldを提案する。
大規模な実験により,本手法はより構造化された潜在動作空間を学習し,より強力なゼロショット動作伝達と,最先端のベースラインよりもデータ効率の高い新しい制御インタフェースへの適応をもたらすことが示された。
関連論文リスト
- Learning Latent Action World Models In The Wild [50.453458324163705]
In-the-wild video における潜在行動世界モデル学習の問題点について検討する。
連続的な、しかし制約のある、潜在的なアクションは、ワイルドなビデオからアクションの複雑さを捉えることができる。
ビデオ間の共通の具体化がないため、我々は主に宇宙空間で局所化される潜伏行動を学ぶことができる。
論文 参考訳(メタデータ) (2026-01-08T18:55:39Z) - Latent Action World Models for Control with Unlabeled Trajectories [8.965084673299858]
我々は異種データから学習する世界モデルを研究する。
我々は,アクション条件付きおよびアクションフリーなデータを共同で使用する潜在アクション世界モデル群を紹介する。
論文 参考訳(メタデータ) (2025-12-10T19:09:45Z) - Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-12-09T18:59:57Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios [49.09128364751743]
アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使われているが、空間構造に対する厳密な制約によって制限されている。
本稿では、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
論文 参考訳(メタデータ) (2025-05-06T17:58:02Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with
Hierarchical Atomic Actions [13.665489987620724]
ビデオにおける微粒な時間的行動検出の弱さに対処する。
本稿では、データから自動的に検出される再利用可能なアトミックアクションの組み合わせとしてアクションをモデル化する。
提案手法は,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。
論文 参考訳(メタデータ) (2022-07-24T20:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。