論文の概要: Latent Action World Models for Control with Unlabeled Trajectories
- arxiv url: http://arxiv.org/abs/2512.10016v1
- Date: Wed, 10 Dec 2025 19:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.021011
- Title: Latent Action World Models for Control with Unlabeled Trajectories
- Title(参考訳): ラベルのない軌道による制御のための潜在行動世界モデル
- Authors: Marvin Alles, Xingyuan Zhang, Patrick van der Smagt, Philip Becker-Ehmck,
- Abstract要約: 我々は異種データから学習する世界モデルを研究する。
我々は,アクション条件付きおよびアクションフリーなデータを共同で使用する潜在アクション世界モデル群を紹介する。
- 参考スコア(独自算出の注目度): 8.965084673299858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by how humans combine direct interaction with action-free experience (e.g., videos), we study world models that learn from heterogeneous data. Standard world models typically rely on action-conditioned trajectories, which limits effectiveness when action labels are scarce. We introduce a family of latent-action world models that jointly use action-conditioned and action-free data by learning a shared latent action representation. This latent space aligns observed control signals with actions inferred from passive observations, enabling a single dynamics model to train on large-scale unlabeled trajectories while requiring only a small set of action-labeled ones. We use the latent-action world model to learn a latent-action policy through offline reinforcement learning (RL), thereby bridging two traditionally separate domains: offline RL, which typically relies on action-conditioned data, and action-free training, which is rarely used with subsequent RL. On the DeepMind Control Suite, our approach achieves strong performance while using about an order of magnitude fewer action-labeled samples than purely action-conditioned baselines. These results show that latent actions enable training on both passive and interactive data, which makes world models learn more efficiently.
- Abstract(参考訳): 人間がアクションフリー体験(例えばビデオ)と直接対話する方法に触発され、異種データから学習する世界モデルを研究する。
標準世界モデルは一般的にアクション条件付き軌道に依存しており、アクションラベルが不足している場合に有効性が制限される。
本稿では,行動条件と行動自由なデータを協調的に使用する潜在行動モデル群を紹介する。
この潜在空間は、観測された制御信号と受動的観測から推測される動作を一致させ、単一のダイナミックスモデルで大規模な未ラベル軌道上でのトレーニングを可能とし、少数のアクションラベル付き信号のみを必要とする。
動作条件付きデータに依存するオフラインRLと,その後のRLではめったに使われないアクションフリートレーニングという,従来の2つのドメインをブリッジする。
DeepMind Control Suiteでは,アクションラベル付きサンプルを純粋に動作条件付きベースラインよりも桁違いに少ない値で使用しながら,高い性能を実現する。
これらの結果から、潜在行動は受動的データと対話的データの両方のトレーニングを可能にし、世界モデルをより効率的に学習することを示す。
関連論文リスト
- Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models [41.429595107023125]
AXIOMは、オブジェクト中心のダイナミクスとインタラクションに関する、最小限だが表現力に富んだコアプライドのセットを統合する、新しいアーキテクチャである。
これはベイズ的アプローチの通常のデータ効率と解釈可能性と、通常DRLに付随する全タスクの一般化を組み合わせている。
AXIOMは、DRLに比べて少数のパラメータを持ち、グラデーションベースの最適化の計算コストなしで、わずか10,000のインタラクションステップで様々なゲームをマスターする。
論文 参考訳(メタデータ) (2025-05-30T16:46:20Z) - CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations [11.604546089466734]
模倣学習を用いたロボットポリシーの学習には、高価なアクションラベル付きエキスパートのデモを大量に収集する必要がある。
有望なアプローチは、例えばビデオデモから教師なしの方法で潜在アクションラベルを学習するといった、ラベルなしの観測の多さを活用することである。
我々は、ラベルのない観測データから複雑な連続制御タスクを解くのに必要な2つの重要な要素を組み込んだ連続潜時行動モデル(CLAM)を設計する。
論文 参考訳(メタデータ) (2025-05-08T07:07:58Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。