論文の概要: Factored Latent Action World Models
- arxiv url: http://arxiv.org/abs/2602.16229v1
- Date: Wed, 18 Feb 2026 07:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.536062
- Title: Factored Latent Action World Models
- Title(参考訳): 要因的潜在行動世界モデル
- Authors: Zizhao Wang, Chang Shi, Jiaheng Hu, Kevin Rohling, Roberto Martín-Martín, Amy Zhang, Peter Stone,
- Abstract要約: アクションフリービデオから潜在アクションを学ぶことは、制御可能な世界モデル学習をスケールアップするための強力なパラダイムとして現れました。
本稿では、シーンを独立した要因に分解する動的因子フレームワークであるFacted Latent Action Model (FLAM)を紹介する。
- 参考スコア(独自算出の注目度): 39.60866765151469
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning latent actions from action-free video has emerged as a powerful paradigm for scaling up controllable world model learning. Latent actions provide a natural interface for users to iteratively generate and manipulate videos. However, most existing approaches rely on monolithic inverse and forward dynamics models that learn a single latent action to control the entire scene, and therefore struggle in complex environments where multiple entities act simultaneously. This paper introduces Factored Latent Action Model (FLAM), a factored dynamics framework that decomposes the scene into independent factors, each inferring its own latent action and predicting its own next-step factor value. This factorized structure enables more accurate modeling of complex multi-entity dynamics and improves video generation quality in action-free video settings compared to monolithic models. Based on experiments on both simulation and real-world multi-entity datasets, we find that FLAM outperforms prior work in prediction accuracy and representation quality, and facilitates downstream policy learning, demonstrating the benefits of factorized latent action models.
- Abstract(参考訳): アクションフリービデオから潜在アクションを学ぶことは、制御可能な世界モデル学習をスケールアップするための強力なパラダイムとして現れました。
遅延アクションは、ユーザが反復的にビデオを生成し、操作するための自然なインターフェースを提供する。
しかし、既存のほとんどのアプローチはモノリシック・逆・フォワード・ダイナミクス・モデルに依存しており、シーン全体を制御するための単一の潜在アクションを学習し、複数のエンティティが同時に振る舞う複雑な環境で苦労する。
本稿では、シーンを独立した要因に分解し、それぞれが独自の潜在アクションを推定し、次のステップの値を予測する因子動的フレームワークであるFacted Latent Action Model(FLAM)を紹介する。
この分解構造は、複雑なマルチエンタリティダイナミクスのより正確なモデリングを可能にし、モノリシックモデルと比較してアクションフリーなビデオ設定におけるビデオ生成品質を向上させる。
シミュレーションと実世界のマルチエンタリティデータセットの両方の実験から、FLAMは予測精度と表現品質において先行研究よりも優れており、下流のポリシー学習を促進し、因数分解された潜在行動モデルの利点を実証する。
関連論文リスト
- Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Learning the Effects of Physical Actions in a Multi-modal Environment [17.757831697284498]
大規模言語モデル(LLM)は、物理的コモンセンス情報を不十分に扱う。
本稿では,現実的な感覚入力のみから行動の結果を予測するマルチモーダルタスクを提案する。
マルチモーダルモデルでは、視覚情報で拡張した場合に、物理的なコモンセンスをキャプチャできることを示す。
論文 参考訳(メタデータ) (2023-01-27T16:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。