論文の概要: Policy Optimization with Smooth Guidance Rewards Learned from
Sparse-Reward Demonstrations
- arxiv url: http://arxiv.org/abs/2401.00162v1
- Date: Sat, 30 Dec 2023 07:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:28:24.625695
- Title: Policy Optimization with Smooth Guidance Rewards Learned from
Sparse-Reward Demonstrations
- Title(参考訳): スパース・リワードのデモンストレーションから学んだスムーズなガイダンス報酬によるポリシー最適化
- Authors: Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen
- Abstract要約: オンライン深層学習(DRL)における報酬フィードバックの空間性は依然として困難な問題である。
本稿では,これらの問題に対処するために,Smooth Guidance (POSG) を用いたポリシー最適化という,シンプルで効率的なアルゴリズムを提案する。
我々は,スムーズな誘導報酬による性能改善限界を理論的に解析し,性能改善に対する新たな最悪の低限界を導出する。
- 参考スコア(独自算出の注目度): 2.9602904918952695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparsity of reward feedback remains a challenging problem in online deep
reinforcement learning (DRL). Previous approaches have utilized temporal credit
assignment (CA) to achieve impressive results in multiple hard tasks. However,
many CA methods relied on complex architectures or introduced sensitive
hyperparameters to estimate the impact of state-action pairs. Meanwhile, the
premise of the feasibility of CA methods is to obtain trajectories with sparse
rewards, which can be troublesome in sparse-reward environments with large
state spaces. To tackle these problems, we propose a simple and efficient
algorithm called Policy Optimization with Smooth Guidance (POSG) that leverages
a small set of sparse-reward demonstrations to make reliable and effective
long-term credit assignments while efficiently facilitating exploration. The
key idea is that the relative impact of state-action pairs can be indirectly
estimated using offline demonstrations rather than directly leveraging the
sparse reward trajectories generated by the agent. Specifically, we first
obtain the trajectory importance by considering both the trajectory-level
distance to demonstrations and the returns of the relevant trajectories. Then,
the guidance reward is calculated for each state-action pair by smoothly
averaging the importance of the trajectories through it, merging the
demonstration's distribution and reward information. We theoretically analyze
the performance improvement bound caused by smooth guidance rewards and derive
a new worst-case lower bound on the performance improvement. Extensive results
demonstrate POSG's significant advantages in control performance and
convergence speed compared to benchmark DRL algorithms. Notably, the specific
metrics and quantifiable results are investigated to demonstrate the
superiority of POSG.
- Abstract(参考訳): 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。
従来のアプローチでは、時間的信用割当(CA)を使用して、複数のハードタスクにおいて印象的な結果を得た。
しかし、多くのCA手法は複雑なアーキテクチャに頼り、状態-作用対の影響を推定するために感度なハイパーパラメータを導入した。
一方、CA法の実現可能性の前提は、大きな状態空間を持つスパース・リワード環境では厄介な、スパース・リワードを伴う軌道を得ることである。
これらの問題に対処するために,スムースガイダンスを用いたポリシー最適化 (POSG) と呼ばれる簡易かつ効率的なアルゴリズムを提案する。
鍵となる考え方は、エージェントが生み出すスパース報酬軌道を直接利用するのではなく、オフラインのデモンストレーションを用いて、状態-作用対の相対的な影響を間接的に推定できるということである。
具体的には, 実演までの軌跡レベル距離と関連する軌道の戻り値の両方を考慮し, 軌道の重要性を得る。
そして、その軌道の重要度を円滑に評価し、デモンストレーションの分布と報奨情報をマージすることにより、各状態-動作対に対する誘導報酬を算出する。
理論上,円滑な誘導報酬による性能改善限界を解析し,性能改善の新たな最悪ケースを導出する。
その結果, ベンチマークDRLアルゴリズムと比較して, POSGの制御性能と収束速度において有意な優位性を示した。
特に,posgの優越性を示すために,特定指標と定量化結果について検討した。
関連論文リスト
- Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。