Fugu-MT 論文翻訳(概要): Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks

論文の概要: Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks

arxiv url: http://arxiv.org/abs/2412.10917v1
Date: Sat, 14 Dec 2024 18:04:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.886684
Title: Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks
Title（参考訳）: 複雑なロボット作業における強化学習のための適応的リワード設計
Authors: Minjae Kwon, Ingy ElSayed-Aly, Lu Feng,
Abstract要約: 本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
参考スコア（独自算出の注目度）: 2.3031174164121127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a surge of interest in using formal languages such as Linear Temporal Logic (LTL) and finite automata to precisely and succinctly specify complex tasks and derive reward functions for reinforcement learning (RL) in robotic applications. However, existing methods often assign sparse rewards (e.g., giving a reward of 1 only if a task is completed and 0 otherwise), necessitating extensive exploration to converge to a high-quality policy. To address this limitation, we propose a suite of reward functions that incentivize an RL agent to make measurable progress on tasks specified by LTL formulas and develop an adaptive reward shaping approach that dynamically updates these reward functions during the learning process. Experimental results on a range of RL-based robotic tasks demonstrate that the proposed approach is compatible with various RL algorithms and consistently outperforms baselines, achieving earlier convergence to better policies with higher task success rates and returns.
Abstract（参考訳）: リニアテンポラル論理(LTL)や有限オートマトンといった形式言語を用いて、複雑なタスクを正確かつ簡潔に指定し、ロボット応用における強化学習(RL)のための報酬関数を導出することへの関心が高まっている。しかし、既存の手法はしばしばスパース報酬を割り当てる(例えば、タスクが完了し、0がなければ1の報酬を与える)ため、高品質なポリシーに収束するには広範な探索が必要である。この制限に対処するため、LTL式で指定されたタスクに対して、RLエージェントにインセンティブを与える報酬関数群を提案し、学習プロセス中にこれらの報酬関数を動的に更新する適応報酬形成手法を開発した。様々なRLに基づくロボットタスクの実験結果から、提案手法は様々なRLアルゴリズムと互換性があり、ベースラインを一貫して上回り、より高いタスク成功率とリターンを持つより良いポリシーに早期に収束することを示した。

関連論文リスト

Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach [12.132416927711036]
本稿では,直感的戦略による報酬形成プロセスの簡略化を目的としたRL手法を提案する。制約付き多目的RL(CMORL)フレームワークにおいて,複数の報酬関数とコスト関数を定義する。逐次的な複雑な動きを含むタスクに対しては、タスクを異なるステージに分割し、各ステージに対する複数の報酬とコストを定義します。
論文参考訳（メタデータ） (2024-09-24T05:25:24Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文参考訳（メタデータ） (2024-02-06T04:00:21Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文参考訳（メタデータ） (2021-07-21T23:21:16Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Active Finite Reward Automaton Inference and Reinforcement Learning Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-28T21:13:08Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。