論文の概要: Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations
- arxiv url: http://arxiv.org/abs/2401.00162v2
- Date: Wed, 10 Apr 2024 13:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 18:56:10.859010
- Title: Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations
- Title(参考訳): 国家専用デモから学んだスムースガイダンスによる政策最適化
- Authors: Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen, Zhiming Zheng,
- Abstract要約: Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
POSGは間接的に、近似的で実現可能な長期クレジットの割り当てを行い、探索を容易にする。
我々は,スムーズな指導報酬による性能改善を理論的に分析し,性能改善に新たな最悪な下限を導出する。
- 参考スコア(独自算出の注目度): 2.9918626341323984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparsity of reward feedback remains a challenging problem in online deep reinforcement learning (DRL). Previous approaches have utilized offline demonstrations to achieve impressive results in multiple hard tasks. However, these approaches place high demands on demonstration quality, and obtaining expert-like actions is often costly and unrealistic. To tackle these problems, we propose a simple and efficient algorithm called Policy Optimization with Smooth Guidance (POSG), which leverages a small set of state-only demonstrations (where only state information is included in demonstrations) to indirectly make approximate and feasible long-term credit assignments and facilitate exploration. Specifically, we first design a trajectory-importance evaluation mechanism to determine the quality of the current trajectory against demonstrations. Then, we introduce a guidance reward computation technology based on trajectory importance to measure the impact of each state-action pair. We theoretically analyze the performance improvement caused by smooth guidance rewards and derive a new worst-case lower bound on the performance improvement. Extensive results demonstrate POSG's significant advantages in control performance and convergence speed in four sparse-reward environments, including the grid-world maze, Hopper-v4, HalfCheetah-v4, and Ant maze. Notably, the specific metrics and quantifiable results are investigated to demonstrate the superiority of POSG.
- Abstract(参考訳): 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。
従来のアプローチでは、オフラインのデモを使用して、複数のハードタスクで印象的な結果を実現しています。
しかしながら、これらのアプローチは、デモ品質に高い要求を課し、専門家のような行動を取得することは、しばしばコストがかかり非現実的である。
これらの問題に対処するために,我々は,国家のみのデモ(デモに状態情報のみが含まれている)の小さなセットを活用して,間接的に近似的かつ実現可能な長期クレジットの割り当てを行い,探索を容易にする,簡易かつ効率的な手法であるPOSG(Policy Optimization with Smooth Guidance)を提案する。
具体的には、まず、実演に対する現在の軌道の質を決定するために、軌道重要度評価機構を設計する。
そして,各状態-作用対の影響を測定するために,軌道重要度に基づくガイダンス報酬計算技術を導入する。
我々は,スムーズな指導報酬による性能改善を理論的に分析し,性能改善に新たな最悪な下限を導出する。
その結果、グリッドワールド迷路、Hopper-v4、HalfCheetah-v4、Ant迷路を含む4つの疎逆環境におけるPOSGの制御性能と収束速度に大きな利点が示された。
特に、POSGの優位性を示すために、特定の測定値と定量化結果について検討した。
関連論文リスト
- Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。