論文の概要: Efficient Language-instructed Skill Acquisition via Reward-Policy Co-Evolution
- arxiv url: http://arxiv.org/abs/2412.13492v1
- Date: Wed, 18 Dec 2024 04:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:38.843905
- Title: Efficient Language-instructed Skill Acquisition via Reward-Policy Co-Evolution
- Title(参考訳): Reward-Policy共進化による効率的な言語指導スキル獲得
- Authors: Changxin Huang, Yanbin Chang, Junfan Lin, Junyang Liang, Runhao Zeng, Jianqiang Li,
- Abstract要約: 我々は、政策に依存した報酬関数で既存のポリシーを洗練することに焦点を当て、ロボット自律性におけるより実践的な戦略を議論する。
本稿では,報酬関数と学習方針が相互の進歩的オンザフライ改善の恩恵を受ける,新たな報酬-政治共進化フレームワークを提案する。
本手法は, 各種高次元ロボットスキル学習タスクにおいて, 95.3%の平均正規化改善を実証する。
- 参考スコア(独自算出の注目度): 11.154165300420853
- License:
- Abstract: The ability to autonomously explore and resolve tasks with minimal human guidance is crucial for the self-development of embodied intelligence. Although reinforcement learning methods can largely ease human effort, it's challenging to design reward functions for real-world tasks, especially for high-dimensional robotic control, due to complex relationships among joints and tasks. Recent advancements large language models (LLMs) enable automatic reward function design. However, approaches evaluate reward functions by re-training policies from scratch placing an undue burden on the reward function, expecting it to be effective throughout the whole policy improvement process. We argue for a more practical strategy in robotic autonomy, focusing on refining existing policies with policy-dependent reward functions rather than a universal one. To this end, we propose a novel reward-policy co-evolution framework where the reward function and the learned policy benefit from each other's progressive on-the-fly improvements, resulting in more efficient and higher-performing skill acquisition. Specifically, the reward evolution process translates the robot's previous best reward function, descriptions of tasks and environment into text inputs. These inputs are used to query LLMs to generate a dynamic amount of reward function candidates, ensuring continuous improvement at each round of evolution. For policy evolution, our method generates new policy populations by hybridizing historically optimal and random policies. Through an improved Bayesian optimization, our approach efficiently and robustly identifies the most capable and plastic reward-policy combination, which then proceeds to the next round of co-evolution. Despite using less data, our approach demonstrates an average normalized improvement of 95.3% across various high-dimensional robotic skill learning tasks.
- Abstract(参考訳): 人間の指示を最小限に抑えてタスクを自律的に探索し解決する能力は、インボディード・インテリジェンス(英語版)の自己開発に不可欠である。
強化学習法は人的労力を大幅に軽減することができるが、関節とタスクの複雑な関係のため、現実世界のタスク、特に高次元ロボット制御のための報酬関数を設計することは困難である。
近年の大規模言語モデル (LLM) により, 報酬関数の自動設計が可能となった。
しかし、政策改善プロセス全体を通じて効果を期待しつつ、報酬関数に不十分な負担を課すことなく、政策をスクラッチから再訓練することで報酬関数を評価する。
我々は、ロボットの自律性においてより実践的な戦略を提唱し、普遍的な政策ではなく、政策に依存した報酬関数で既存の政策を洗練することに焦点をあてる。
そこで我々は,報奨関数と学習方針が相互の進歩的オンザフライ改善から恩恵を受け,より効率的で高い能力獲得を実現する,新たな報奨政治共進化フレームワークを提案する。
具体的には、報酬の進化過程は、ロボットのこれまでの最高の報酬関数、タスクと環境の説明をテキスト入力に変換する。
これらのインプットはLSMに問い合わせて報酬関数候補を動的に生成し、各ラウンドの進化における継続的な改善を確実にする。
政策の進化には, 歴史的に最適な政策とランダムな政策を混在させることにより, 新たな政策人口を生成する。
ベイズ最適化の改良により、我々のアプローチは、最も有能でプラスティックな報酬と政治の組み合わせを効果的に同定し、次の進化のラウンドに進む。
データが少ないにもかかわらず、我々の手法は、様々な高次元ロボットスキル学習タスクに対して、平均95.3%の正規化された改善を示す。
関連論文リスト
- FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文 参考訳(メタデータ) (2023-05-23T08:05:59Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。