Fugu-MT 論文翻訳(概要): StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

論文の概要: StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

arxiv url: http://arxiv.org/abs/2510.05057v1
Date: Mon, 06 Oct 2025 17:37:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:53:00.023491
Title: StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
Title（参考訳）: StaMo: コンパクトな状態表現による汎用ロボット運動の教師なし学習
Authors: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen,
Abstract要約: 高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
参考スコア（独自算出の注目度）: 56.996371714721995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.
Abstract（参考訳）: インテリジェンスを具現化する基本的な課題は、効率的な世界モデリングと意思決定のための表現的かつコンパクトな状態表現を開発することである。しかし、既存のメソッドはこのバランスを達成できず、過剰に冗長であるか、タスククリティカルな情報が不足している表現をもたらすことが多い。本稿では,軽量エンコーダと事前学習型拡散変換器(DiT)デコーダを用いて,高度に圧縮された2トークン状態表現を学習する教師なし手法を提案する。我々の表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合され、LIBEROの性能は14.3%向上し、推論オーバーヘッドを最小限に抑えた実世界のタスク成功率は30%向上した。さらに重要なことは、これらのトークンの違いは、潜伏補間によって得られるもので、自然に非常に効果的な潜伏作用として機能し、さらに実行可能なロボットの動作に復号できるということである。この創発的能力は、我々の表現が明示的な監督なしに構造化されたダイナミクスを捉えていることを明らかにする。我々は,静的画像から符号化されたコンパクトな状態表現から一般化可能なロボット運動を学習し,複雑なアーキテクチャやビデオデータに対する潜伏動作の学習に広く依存することへの挑戦として,この手法をStaMoと名付けた。結果として生じる潜在的行動は、ポリシーの協調訓練を強化し、解釈可能性を改善した以前の手法を10.4%上回った。さらに,本手法は,実世界のロボットデータ,シミュレーション,人間中心のビデオなど,多様なデータソースを効果的にスケールする。

関連論文リスト

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping [66.22412592525369]
本稿では,ガウスのSplat表現を生かした実--sim-to-realエンジンを導入し,実-sim-to-realエンジンについて述べる。提案エンジンは, 各種物体の形状と質量値のマス識別において, 高精度かつロバストな性能を実現していることを示す。これらの最適化された質量値は、力覚的なポリシー学習を促進し、オブジェクトの把握において優れた、高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-01T15:32:04Z)
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。 ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文参考訳（メタデータ） (2026-02-11T16:47:01Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning [20.535171893983794]
AFROは,行動や再建を伴わない3次元表現を学習する自己指導型フレームワークである。視覚的特徴の質と安定性を改善し,特徴の相違と逆一貫性の監視を取り入れた。 Diffusion Policyと組み合わせると、AFROは16のシミュレーションと4つの実世界のタスクの操作成功率を大幅に向上させる。
論文参考訳（メタデータ） (2025-11-25T02:15:32Z)
Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。 DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-09-26T17:59:59Z)
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文参考訳（メタデータ） (2025-04-03T17:38:59Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。 LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文参考訳（メタデータ） (2024-10-15T00:41:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。