論文の概要: Learning Visual Feature-Based World Models via Residual Latent Action
- arxiv url: http://arxiv.org/abs/2605.07079v1
- Date: Fri, 08 May 2026 00:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.704899
- Title: Learning Visual Feature-Based World Models via Residual Latent Action
- Title(参考訳): 残留潜時行動による視覚的特徴に基づく世界モデル学習
- Authors: Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias,
- Abstract要約: Residual Latent Action* (RLA) は、DINO残基から容易に学べる。
RLA World Model*(RLA-WM)は、シミュレーションと実世界のデータセットにおいて、最先端の機能ベースとビデオ拡散の世界モデルの両方を上回っている。
- 参考スコア(独自算出の注目度): 16.274418749277366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm
- Abstract(参考訳): 世界モデルは、観測と行動から将来の遷移を予測する。
既存の作品は画像生成のみに焦点を当てている。
一方、ビジュアル機能ベースの世界モデルは、生のビデオピクセルの代わりに将来の視覚的特徴を予測し、より効率的で幻覚の少ない有望な代替手段を提供する。
しかし、現在の特徴に基づくアプローチは直接回帰に依存しており、複雑な相互作用における曖昧さや予測が崩壊する一方、高次元の特徴空間における生成的モデリングは依然として困難なままである。
そこで本研究では,DINO残基から「残留潜時行動*」(Residual Latent Action*, RLA)と呼ばれる新しい潜時行動表現が容易に学べることを発見した。
また, RLAは時間進行を予測し, 一般化し, エンコードすることを示した。
RLA上に構築する*RLAワールドモデル*(RLA-WM)は,フローマッチングによってRLAの値を予測する。
RLA-WMは、シミュレーションと実世界のデータセットにおいて、最先端の機能ベースとビデオ拡散の世界モデルの両方を上回り、ビデオ拡散よりも桁違いに高速である。
さらに,政策学習を改善するためにRLA-WMを用いた2つのロボット学習手法を開発した。
1つ目は、アクションレスデモビデオから学ぶRLAを備えたミニマリストの世界アクションモデルである。
第2のフレームワークは、オフラインビデオから学習した世界モデルの中で、オンラインの対話や手作りの報酬を使わずに、初めて訓練されたビジュアルなRLフレームワークだ。
プロジェクトページ: https://mlzxy.github.io/rla-wm
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVLAモデルを実現するシンプルなアプローチであるPri4Rを紹介する。
Pri4Rは3Dトラックを予測する軽量なポイントトラックヘッドでVLAを強化している。
3Dポイントトラック予測は,アクションワールドダイナミクスを学習するための効果的な監視対象であることを示す。
論文 参考訳(メタデータ) (2026-03-02T07:23:53Z) - World Action Models are Zero-shot Policies [111.91938055103633]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。
ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。
ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-17T15:04:02Z) - VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model [87.75549463328836]
本研究の目的は、反復的なオンラインインタラクションにより、視覚言語アクション(VLA)モデルの性能と信頼性を向上させることである。
本稿では,実世界のロールアウトデータを用いて,世界モデルの忠実度を向上する簡易な反復改善アルゴリズムを提案する。
基本方針よりも39.2%の絶対成功率向上と、生成した合成ロールアウトによるトレーニングによる11.6%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-12T15:21:47Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures [58.26804959656713]
JEPA(Joint-Embedding Predictive Architectures)を用いた表現と世界モデルを学習するためのオープンソースのライブラリであるEB-JEPAを提案する。
JEPAsは、ピクセル空間ではなく表現空間で予測することを学び、生成モデリングの落とし穴を避ける。
これらの表現がどのように行動条件付き世界モデルを駆動し、Two Roomsナビゲーションタスクで97%の計画成功率を達成するかを示す。
論文 参考訳(メタデータ) (2026-02-03T14:56:24Z) - MAD: Motion Appearance Decoupling for efficient Driving World Models [94.40548866741791]
本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
論文 参考訳(メタデータ) (2026-01-14T12:52:23Z) - AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-17T05:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。