論文の概要: Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.15724v1
- Date: Wed, 19 Mar 2025 22:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:37.751731
- Title: Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning
- Title(参考訳): リワードトレーニングホイール:ロボット強化学習のための適応補助リワード
- Authors: Linji Wang, Tong Xu, Yuanjie Lu, Xuesu Xiao,
- Abstract要約: 本稿では,ロボット工学RLの補助報酬適応を自動化する教師学生用フレームワークであるReward Training Wheels(RTW)を紹介する。
シミュレーションでは、RTWは専門家が設計した報酬を2.35%のナビゲーション成功率で上回り、オフロードモビリティのパフォーマンスを122.62%向上させる。
物理ロボット実験はRTWの有効性をさらに検証し、完全な成功率(専門家が設計した報酬に対して5/5の試験と2/5の試験)を達成し、車体安定性を47.4%まで向上させた。
- 参考スコア(独自算出の注目度): 9.7718977789508
- License:
- Abstract: Robotics Reinforcement Learning (RL) often relies on carefully engineered auxiliary rewards to supplement sparse primary learning objectives to compensate for the lack of large-scale, real-world, trial-and-error data. While these auxiliary rewards accelerate learning, they require significant engineering effort, may introduce human biases, and cannot adapt to the robot's evolving capabilities during training. In this paper, we introduce Reward Training Wheels (RTW), a teacher-student framework that automates auxiliary reward adaptation for robotics RL. To be specific, the RTW teacher dynamically adjusts auxiliary reward weights based on the student's evolving capabilities to determine which auxiliary reward aspects require more or less emphasis to improve the primary objective. We demonstrate RTW on two challenging robot tasks: navigation in highly constrained spaces and off-road vehicle mobility on vertically challenging terrain. In simulation, RTW outperforms expert-designed rewards by 2.35% in navigation success rate and improves off-road mobility performance by 122.62%, while achieving 35% and 3X faster training efficiency, respectively. Physical robot experiments further validate RTW's effectiveness, achieving a perfect success rate (5/5 trials vs. 2/5 for expert-designed rewards) and improving vehicle stability with up to 47.4% reduction in orientation angles.
- Abstract(参考訳): ロボット強化学習(RL)は、しばしば、大規模な実世界の試行錯誤データの欠如を補うために、希少な初等学習目標を補うために、慎重に設計された補助報酬に頼っている。
これらの補助的な報酬は学習を加速させるが、工学的な努力が必要であり、人間のバイアスを導入し、訓練中にロボットの進化する能力に適応できない。
本稿では,ロボット工学RLの補助報酬適応を自動化する教師支援フレームワークであるReward Training Wheels(RTW)を紹介する。
具体的には、RTW教師は、生徒の進化能力に基づいて補助報酬重量を動的に調整し、主目的を改善するためにどの補助報酬面が多かれ少なかれ強調する必要があるかを判断する。
RTWは、高度に制約された空間でのナビゲーションと、垂直に困難な地形でのオフロード車両の移動という2つの困難なロボットタスクを実演する。
シミュレーションでは、RTWは専門家が設計した報酬を2.35%、オフロードモビリティ性能を122.62%、トレーニング効率を35%、トレーニング効率を3倍向上させる。
物理ロボット実験はRTWの有効性をさらに検証し、完全な成功率(専門家が設計した報酬に対して5/5の試験と2/5の試験)を達成し、車体安定性を47.4%まで向上させた。
関連論文リスト
- STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion [33.91518509518502]
我々は,人型ロボットの移動作業に対する報酬設計,DRLトレーニング,フィードバック最適化を自動化するために,エージェント工学に基づく新しいフレームワークSTRIDEを紹介する。
エージェントエンジニアリングの構造化された原則と、コード記述、ゼロショット生成、コンテキスト内最適化のための大きな言語モデル(LLM)を組み合わせることで、STRIDEはタスク固有のプロンプトやテンプレートに頼ることなく報酬関数を生成し、評価し、反復的に洗練する。
ヒューマノイドロボットの形態を特徴とする多様な環境において、STRIDEは最先端の報酬設計フレームワークであるEUREKAよりも優れており、ラウンド250%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-02-07T06:37:05Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - Deep Reinforcement Learning with a Stage Incentive Mechanism of Dense
Reward for Robotic Trajectory Planning [3.0242753679068466]
本稿では,DRLに基づくロボットマニピュレータ軌道計画の効率化を目的とした3つの報酬関数を提案する。
より合理的な軌道で学習プロセスを高速化する姿勢報酬関数を提案する。
学習過程の安定性を向上させるために,ストライド報酬関数を提案する。
論文 参考訳(メタデータ) (2020-09-25T07:36:32Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。