論文の概要: StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
- arxiv url: http://arxiv.org/abs/2510.05057v1
- Date: Mon, 06 Oct 2025 17:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.023491
- Title: StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
- Title(参考訳): StaMo: コンパクトな状態表現による汎用ロボット運動の教師なし学習
- Authors: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen,
- Abstract要約: 高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
- 参考スコア(独自算出の注目度): 56.996371714721995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.
- Abstract(参考訳): インテリジェンスを具現化する基本的な課題は、効率的な世界モデリングと意思決定のための表現的かつコンパクトな状態表現を開発することである。
しかし、既存のメソッドはこのバランスを達成できず、過剰に冗長であるか、タスククリティカルな情報が不足している表現をもたらすことが多い。
本稿では,軽量エンコーダと事前学習型拡散変換器(DiT)デコーダを用いて,高度に圧縮された2トークン状態表現を学習する教師なし手法を提案する。
我々の表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合され、LIBEROの性能は14.3%向上し、推論オーバーヘッドを最小限に抑えた実世界のタスク成功率は30%向上した。
さらに重要なことは、これらのトークンの違いは、潜伏補間によって得られるもので、自然に非常に効果的な潜伏作用として機能し、さらに実行可能なロボットの動作に復号できるということである。
この創発的能力は、我々の表現が明示的な監督なしに構造化されたダイナミクスを捉えていることを明らかにする。
我々は,静的画像から符号化されたコンパクトな状態表現から一般化可能なロボット運動を学習し,複雑なアーキテクチャやビデオデータに対する潜伏動作の学習に広く依存することへの挑戦として,この手法をStaMoと名付けた。
結果として生じる潜在的行動は、ポリシーの協調訓練を強化し、解釈可能性を改善した以前の手法を10.4%上回った。
さらに,本手法は,実世界のロボットデータ,シミュレーション,人間中心のビデオなど,多様なデータソースを効果的にスケールする。
関連論文リスト
- Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。
高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。
DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。