論文の概要: CLAW: Learning Continuous Latent Action World Models via Adversarial Latent Regularization
- arxiv url: http://arxiv.org/abs/2606.04130v1
- Date: Tue, 02 Jun 2026 18:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.32846
- Title: CLAW: Learning Continuous Latent Action World Models via Adversarial Latent Regularization
- Title(参考訳): CLAW: 逆潜時正規化による連続潜時行動世界モデル学習
- Authors: Tewodros Ayalew, Matthew Jeung, Samuel Wheeler, Xiao Zhang, Andre de la Cruz Arce, Kaylene Stocking, Michael Maire, Matthew R. Walter,
- Abstract要約: CLAWは、アクションフリーのビデオから直接、連続的な潜在アクション表現と協調して世界モデルを学ぶためのフレームワークである。
得られた潜在行動世界モデルが,観察から得られた模倣学習と目標指向計画の両方をサポートすることを示す。
- 参考スコア(独自算出の注目度): 15.232107188163747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CLAW, a fully end-to-end self-supervised framework for learning a world model jointly with continuous latent action representations directly from action-free videos. Our approach leverages adversarial latent regularization and diffusion-based video generation to capture structured and semantically meaningful action representations while modeling rich, predictive environment dynamics, without relying on any action labels or annotations. By simultaneously training the Latent Action Model and world model, CLAW learns to reason about how inferred actions induce environment transitions from visual observations alone. We show that the resulting latent action world model supports both imitation learning from observation and goal-directed planning. In imitation learning, latent actions extracted from raw videos enable behavior cloning. For planning, CLAW generates sequences of latent actions and maps them to executable actions to reach desired goals. Extensive experiments across diverse tasks and embodiments demonstrate that CLAW produces semantically meaningful latent action representations, supports effective action transfer, and enables planning and imitation from observation, outperforming existing methods.
- Abstract(参考訳): CLAWは、アクションフリーのビデオから直接、連続的な潜在アクション表現と協調して世界モデルを学ぶための、完全なエンドツーエンドのセルフ教師付きフレームワークである。
提案手法では,対戦型潜在正規化と拡散型ビデオ生成を活用して,アクションラベルやアノテーションを使わずに,リッチで予測可能な環境ダイナミクスをモデル化しながら,構造化された意味論的に意味のあるアクション表現をキャプチャする。
潜在行動モデルと世界モデルを同時にトレーニングすることにより、CLAWは、推論されたアクションが視覚的な観察のみから環境遷移を誘発する方法を推論することを学ぶ。
得られた潜在行動世界モデルが,観察から得られた模倣学習と目標指向計画の両方をサポートすることを示す。
模倣学習では、生のビデオから抽出された潜伏行動は行動クローニングを可能にする。
計画のために、CLAWは遅延アクションのシーケンスを生成し、それを実行可能なアクションにマッピングし、望ましいゴールに達する。
多様なタスクや実施形態にわたる広範囲な実験により、CLAWは意味論的に意味のある潜在的行動表現を生成し、効果的な行動伝達をサポートし、観察から計画と模倣を可能にし、既存の方法より優れていることを示した。
関連論文リスト
- DiLA: Disentangled Latent Action World Models [11.259992289079534]
ラテントアクションモデル(LAM)は、ラベルのないビデオから世界モデルの学習を可能にする。
LAMは、アクション抽象化とジェネレーションフィリティの根本的なトレードオフに直面します。
コンテンツ構造不整合(contentanglement)を通じてこのトレードオフを解決することを目的とした,新しいディスタングル・ラテント・アクション・ワールド・モデルであるDiLAを紹介する。
論文 参考訳(メタデータ) (2026-05-15T08:22:37Z) - SCAR: Self-Supervised Continuous Action Representation Learning [36.917304453471864]
視覚的遷移から具現化された動作表現を学習するための共同逆フォワード動的フレームワークであるSCARを提案する。
事前訓練された生成バックボーン上に構築されたSCARは、逆ダイナミクスモデル(IDM)を使用して、潜時観測ペアから潜時動作を推論し、フォワードダイナミクスモデル(FDM)を用いて、それらに条件付けられた将来のダイナミクスを予測する。
Procgen と Robotwin のデータセットの実験により、学習された統合潜在行動表現は、具体化固有の生の行動よりも、世界モデリングのためのより強い条件付けインターフェースとして機能することが示された。
論文 参考訳(メタデータ) (2026-05-13T16:23:11Z) - HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models [14.109112325287208]
本研究は,2つの視点から潜時行動監視に関する研究である。 (i) 画像に基づく潜時行動による軌道の規則化, (ii) 行動に基づく潜時行動による目標空間の統一である。
以上の結果より, 動作に基づく潜在動作は複雑な運動調整において優れるが, 定式化タスク対応は明らかである。
論文 参考訳(メタデータ) (2026-05-06T09:27:07Z) - Latent Action World Models for Control with Unlabeled Trajectories [8.965084673299858]
我々は異種データから学習する世界モデルを研究する。
我々は,アクション条件付きおよびアクションフリーなデータを共同で使用する潜在アクション世界モデル群を紹介する。
論文 参考訳(メタデータ) (2025-12-10T19:09:45Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Diffusion Model-Augmented Behavioral Cloning [4.363232795241617]
本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローン(DBC)は,専門家の行動のモデル化に訓練された拡散モデルを用いて,BC損失(条件)と拡散モデル損失(ジョイント)の両方を最適化する政策を学習する。
論文 参考訳(メタデータ) (2023-02-26T15:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。