論文の概要: The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures for Robot Policy Learning
- arxiv url: http://arxiv.org/abs/2505.03296v1
- Date: Tue, 06 May 2025 08:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.261263
- Title: The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures for Robot Policy Learning
- Title(参考訳): 離散時間ガウス過程混合のロボット政策学習における不合理な効果
- Authors: Jan Ole von Hartz, Adrian Röfer, Joschka Boedecker, Abhinav Valada,
- Abstract要約: MiDiGapは、ロボット操作におけるフレキシブルポリシー表現と模倣学習のための新しいアプローチである。
1分以内でCPU上のタスクを学習し、大規模なデータセットに線形にスケールする。
様々な数ショットのベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 13.599764233174973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Mixture of Discrete-time Gaussian Processes (MiDiGap), a novel approach for flexible policy representation and imitation learning in robot manipulation. MiDiGap enables learning from as few as five demonstrations using only camera observations and generalizes across a wide range of challenging tasks. It excels at long-horizon behaviors such as making coffee, highly constrained motions such as opening doors, dynamic actions such as scooping with a spatula, and multimodal tasks such as hanging a mug. MiDiGap learns these tasks on a CPU in less than a minute and scales linearly to large datasets. We also develop a rich suite of tools for inference-time steering using evidence such as collision signals and robot kinematic constraints. This steering enables novel generalization capabilities, including obstacle avoidance and cross-embodiment policy transfer. MiDiGap achieves state-of-the-art performance on diverse few-shot manipulation benchmarks. On constrained RLBench tasks, it improves policy success by 76 percentage points and reduces trajectory cost by 67%. On multimodal tasks, it improves policy success by 48 percentage points and increases sample efficiency by a factor of 20. In cross-embodiment transfer, it more than doubles policy success. We make the code publicly available at https://midigap.cs.uni-freiburg.de.
- Abstract(参考訳): ロボット操作におけるフレキシブルなポリシー表現と模倣学習のための新しいアプローチであるMiDiGap(MiDiGap)について述べる。
MiDiGapは、カメラ観察のみを使用して最大5回のデモから学び、幅広い課題にまたがる一般化を可能にする。
コーヒー作り、オープンドアなどの非常に制約のある動き、スパチュラでスクーピングするなどの動的な動作、マグカップを吊るすようなマルチモーダルな作業など、長い水平な行動に優れる。
MiDiGapは、CPU上のこれらのタスクを1分以内で学習し、大規模なデータセットに線形にスケールする。
また,衝突信号やロボット運動の制約といったエビデンスを用いて,推論時ステアリングのための豊富なツールも開発している。
このステアリングは、障害物回避やクロス・エボディメント・ポリシー・トランスファーを含む新しい一般化機能を実現する。
MiDiGapは、様々な数ショットの操作ベンチマークで最先端のパフォーマンスを達成する。
制約付きRLBenchタスクでは、政策成功率を76パーセント改善し、軌道費用を67%削減する。
マルチモーダルタスクでは、政策成功率を48ポイント改善し、サンプル効率を20倍に向上させる。
クロス・エボデーメント・トランスファーでは、政策の成功が2倍以上になる。
コードはhttps://midigap.cs.uni-freiburg.deで公開しています。
関連論文リスト
- IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。