論文の概要: What Matters for Simulation to Online Reinforcement Learning on Real Robots
- arxiv url: http://arxiv.org/abs/2602.20220v1
- Date: Mon, 23 Feb 2026 10:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.475687
- Title: What Matters for Simulation to Online Reinforcement Learning on Real Robots
- Title(参考訳): 実ロボットのオンライン強化学習におけるシミュレーションの意義
- Authors: Yarden As, Dhruva Tirumala, René Zurbrügg, Chenhao Li, Stelian Coros, Andreas Krause, Markus Wulfmeier,
- Abstract要約: 物理ロボットにおけるオンライン強化学習を成功させる設計選択について検討する。
私たちはアルゴリズム、システム、実験的な決定を体系的に緩和します。
広く使用されているデフォルトのいくつかは有害であり得るが、標準RLのプラクティスにおいて、堅牢で容易に採用される設計選択のセットは、タスクやハードウェア間で安定した学習をもたらす。
- 参考スコア(独自算出の注目度): 51.77095085120584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate what specific design choices enable successful online reinforcement learning (RL) on physical robots. Across 100 real-world training runs on three distinct robotic platforms, we systematically ablate algorithmic, systems, and experimental decisions that are typically left implicit in prior work. We find that some widely used defaults can be harmful, while a set of robust, readily adopted design choices within standard RL practice yield stable learning across tasks and hardware. These results provide the first large-sample empirical study of such design choices, enabling practitioners to deploy online RL with lower engineering effort.
- Abstract(参考訳): ロボット上でのオンライン強化学習(RL)を成功させる設計選択について検討する。
100以上の現実世界のトレーニングは、3つの異なるロボットプラットフォーム上で実行されます。
広く使用されているデフォルトのいくつかは有害であり得るが、標準RLのプラクティスにおいて、堅牢で容易に採用される設計選択のセットは、タスクやハードウェア間で安定した学習をもたらす。
これらの結果は、そのような設計選択に関する最初の大規模な実験的な研究を提供し、実践者がより少ないエンジニアリング努力でオンラインRLをデプロイできるようにする。
関連論文リスト
- Reinforcement Learning Within the Classical Robotics Stack: A Case Study in Robot Soccer [25.161615988222934]
モデルフリー強化学習(RL)を古典的なロボットスタックに組み込んだ新しいアーキテクチャを開発する。
私たちのアーキテクチャは2024年のRoboCup SPL Challenge Shield Divisionで勝利しました。
論文 参考訳(メタデータ) (2024-12-12T16:25:10Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [96.5899286619008]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。