論文の概要: Latent Policy Steering with Embodiment-Agnostic Pretrained World Models
- arxiv url: http://arxiv.org/abs/2507.13340v1
- Date: Thu, 17 Jul 2025 17:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.613979
- Title: Latent Policy Steering with Embodiment-Agnostic Pretrained World Models
- Title(参考訳): 未学習世界モデルを用いた潜時政策ステアリング
- Authors: Yiqi Wang, Mrinal Verghese, Jeff Schneider,
- Abstract要約: 我々は,既存の費用対効果のあるデータを活用することで,ロボットの動作を学習する際のデータ収集の労力を削減することを目的としている。
我々は,多身体データを用いた世界モデル(WM)のトレーニングを行うために,光学フローを具体化に依存しない動作表現として利用する。
我々は,WMの潜在空間を探索して行動閉鎖ポリシーの出力を改善する手法,LPS (Latent Policy Steering) を開発した。
- 参考スコア(独自算出の注目度): 8.265847442964045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visuomotor policies via imitation has proven effective across a wide range of robotic domains. However, the performance of these policies is heavily dependent on the number of training demonstrations, which requires expensive data collection in the real world. In this work, we aim to reduce data collection efforts when learning visuomotor robot policies by leveraging existing or cost-effective data from a wide range of embodiments, such as public robot datasets and the datasets of humans playing with objects (human data from play). Our approach leverages two key insights. First, we use optic flow as an embodiment-agnostic action representation to train a World Model (WM) across multi-embodiment datasets, and finetune it on a small amount of robot data from the target embodiment. Second, we develop a method, Latent Policy Steering (LPS), to improve the output of a behavior-cloned policy by searching in the latent space of the WM for better action sequences. In real world experiments, we observe significant improvements in the performance of policies trained with a small amount of data (over 50% relative improvement with 30 demonstrations and over 20% relative improvement with 50 demonstrations) by combining the policy with a WM pretrained on two thousand episodes sampled from the existing Open X-embodiment dataset across different robots or a cost-effective human dataset from play.
- Abstract(参考訳): 模倣によるビジュモータポリシーの学習は、幅広いロボット領域で有効であることが証明されている。
しかし、これらのポリシのパフォーマンスは、実世界の高価なデータ収集を必要とするトレーニングデモの数に大きく依存している。
本研究では,公立ロボットのデータセットや,物体と遊ぶ人間のデータセット(遊びからの人的データ)など,幅広い実施形態から,既存の,あるいは費用対効果のあるデータを活用することで,バイスモータロボットのポリシーを学ぶ際のデータ収集の労力を削減することを目的とする。
このアプローチは2つの重要な洞察を活用する。
まず、光学フローをエンボディメント非依存の動作表現として使用し、マルチエンボディメントデータセット上でワールドモデル(WM)をトレーニングし、ターゲットのエンボディメントから少量のロボットデータに基づいて微調整する。
第2に,WMの潜時空間を探索して行動閉鎖ポリシーの出力を改善する手法,LPS (Latent Policy Steering) を開発した。
実世界の実験では、このポリシーと、既存のOpen X-embodimentデータセットから異なるロボット、あるいは費用対効果のある人間のデータセットからサンプリングされた2000エピソードのWMとを組み合わせて、少量のデータでトレーニングされたポリシー(30のデモで50%以上の相対的改善、50のデモで20%以上の相対的改善)の性能を大幅に改善する。
関連論文リスト
- Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。