論文の概要: Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.15789v1
- Date: Mon, 16 Mar 2026 18:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.881625
- Title: Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning
- Title(参考訳): 逆リセットと大規模強化学習による創発的デキスタリティ
- Authors: Patrick Yin, Tyler Westenbroek, Zhengyu Zhang, Joshua Tran, Ignacio Dagnino, Eeshani Shilamkar, Numfor Mbiziwo-Tiapo, Simran Bagaria, Xinlei Liu, Galen Mullins, Andrey Kolobov, Abhishek Gupta,
- Abstract要約: メソッドはシンプルでスケーラブルなフレームワークであり、オンラインの強化学習により、広範囲にわたる巧妙な操作タスクを堅牢に解決することができる。
メソッドは最小限の人間の入力でリセットを生成し、追加の計算を直接より広範な行動カバレッジに変換する。
提案手法は,既存のアプローチの能力を超えた,長期のデクスタラスな操作タスクに優雅にスケール可能であることを示す。
- 参考スコア(独自算出の注目度): 14.911497503823123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning in massively parallel physics simulations has driven major progress in sim-to-real robot learning. However, current approaches remain brittle and task-specific, relying on extensive per-task engineering to design rewards, curricula, and demonstrations. Even with this engineering, they often fail on long-horizon, contact-rich manipulation tasks and do not meaningfully scale with compute, as performance quickly saturates when training revisits the same narrow regions of state space. We introduce \Method, a simple and scalable framework that enables on-policy reinforcement learning to robustly solve a broad class of dexterous manipulation tasks using a single reward function, fixed algorithm hyperparameters, no curricula, and no human demonstrations. Our key insight is that long-horizon exploration can be dramatically simplified by using simulator resets to systematically expose the RL algorithm to the diverse set of robot-object interactions which underlie dexterous manipulation. \Method\ programmatically generates such resets with minimal human input, converting additional compute directly into broader behavioral coverage and continued performance gains. We show that \Method\ gracefully scales to long-horizon dexterous manipulation tasks beyond the capabilities of existing approaches and is able to learn robust policies over significantly wider ranges of initial conditions than baselines. Finally, we distill \Method \ into visuomotor policies which display robust retrying behavior and substantially higher success rates than baselines when transferred to the real world zero-shot. Project webpage: https://omnireset.github.io
- Abstract(参考訳): 大規模並列物理シミュレーションにおける強化学習は、シモン・トゥ・リアル・ロボット・ラーニングにおいて大きな進歩をもたらした。
しかし、現在のアプローチは依然として脆弱でタスク固有であり、報酬、カリキュラム、デモを設計するためにタスクごとの広範なエンジニアリングに依存している。
このエンジニアリングであっても、それらは長い水平でコンタクトリッチな操作タスクで失敗することが多く、トレーニング時に同じ狭い状態空間の領域を再考するので、計算で意味のあるスケールにはならない。
そこで我々は,単一報酬関数,固定アルゴリズムハイパーパラメータ,キュリキュラなし,人間による実演のない,多種多様な操作タスクを頑健に解決する,シンプルでスケーラブルなフレームワークである‘Method’を紹介した。
我々の重要な洞察は、RLアルゴリズムを多種多様なロボットとオブジェクトの相互作用に体系的に公開するためにシミュレータリセットを使用することで、長期探査を劇的に単純化できるということである。
プログラムでこのようなリセットを最小限の人間入力で生成し、追加の計算をより広範な行動カバレッジと継続的なパフォーマンス向上に変換する。
そこで,<Method\ は,既存のアプローチの能力を超える長期的操作タスクに優雅にスケールし,ベースラインよりもはるかに広い初期条件の範囲でロバストなポリシーを学習できることを示す。
最後に,<Method \ を実世界のゼロショットに移動した場合に,ロバストな再試行行動と,ベースラインよりも極めて高い成功率を示すビジュモータポリシーに蒸留する。
プロジェクトWebページ: https://omnireset.github.io
関連論文リスト
- Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning [49.82882141491629]
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-03-02T05:07:43Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Augmenting Reinforcement Learning with Behavior Primitives for Diverse
Manipulation Tasks [17.13584584844048]
本研究では,MAnipulation Primitive-augmented reinforcement LEarning (MAPLE)を導入した。
我々は、プリミティブを巻き込み、それらの実行を入力パラメータでインスタンス化する階層的なポリシーを開発する。
我々は、MAPLEが、シミュレーション操作タスクのスイートにおいて、ベースラインアプローチをかなりのマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:44:33Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。