Fugu-MT 論文翻訳(概要): Policy Optimization with Smooth Guidance Rewards Learned from Sparse-Reward Demonstrations

論文の概要: Policy Optimization with Smooth Guidance Rewards Learned from Sparse-Reward Demonstrations

arxiv url: http://arxiv.org/abs/2401.00162v1
Date: Sat, 30 Dec 2023 07:41:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 18:28:24.625695
Title: Policy Optimization with Smooth Guidance Rewards Learned from Sparse-Reward Demonstrations
Title（参考訳）: スパース・リワードのデモンストレーションから学んだスムーズなガイダンス報酬によるポリシー最適化
Authors: Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen
Abstract要約: オンライン深層学習(DRL)における報酬フィードバックの空間性は依然として困難な問題である。本稿では,これらの問題に対処するために,Smooth Guidance (POSG) を用いたポリシー最適化という,シンプルで効率的なアルゴリズムを提案する。我々は,スムーズな誘導報酬による性能改善限界を理論的に解析し,性能改善に対する新たな最悪の低限界を導出する。
参考スコア（独自算出の注目度）: 2.9602904918952695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The sparsity of reward feedback remains a challenging problem in online deep reinforcement learning (DRL). Previous approaches have utilized temporal credit assignment (CA) to achieve impressive results in multiple hard tasks. However, many CA methods relied on complex architectures or introduced sensitive hyperparameters to estimate the impact of state-action pairs. Meanwhile, the premise of the feasibility of CA methods is to obtain trajectories with sparse rewards, which can be troublesome in sparse-reward environments with large state spaces. To tackle these problems, we propose a simple and efficient algorithm called Policy Optimization with Smooth Guidance (POSG) that leverages a small set of sparse-reward demonstrations to make reliable and effective long-term credit assignments while efficiently facilitating exploration. The key idea is that the relative impact of state-action pairs can be indirectly estimated using offline demonstrations rather than directly leveraging the sparse reward trajectories generated by the agent. Specifically, we first obtain the trajectory importance by considering both the trajectory-level distance to demonstrations and the returns of the relevant trajectories. Then, the guidance reward is calculated for each state-action pair by smoothly averaging the importance of the trajectories through it, merging the demonstration's distribution and reward information. We theoretically analyze the performance improvement bound caused by smooth guidance rewards and derive a new worst-case lower bound on the performance improvement. Extensive results demonstrate POSG's significant advantages in control performance and convergence speed compared to benchmark DRL algorithms. Notably, the specific metrics and quantifiable results are investigated to demonstrate the superiority of POSG.
Abstract（参考訳）: 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。従来のアプローチでは、時間的信用割当(CA)を使用して、複数のハードタスクにおいて印象的な結果を得た。しかし、多くのCA手法は複雑なアーキテクチャに頼り、状態-作用対の影響を推定するために感度なハイパーパラメータを導入した。一方、CA法の実現可能性の前提は、大きな状態空間を持つスパース・リワード環境では厄介な、スパース・リワードを伴う軌道を得ることである。これらの問題に対処するために,スムースガイダンスを用いたポリシー最適化 (POSG) と呼ばれる簡易かつ効率的なアルゴリズムを提案する。鍵となる考え方は、エージェントが生み出すスパース報酬軌道を直接利用するのではなく、オフラインのデモンストレーションを用いて、状態-作用対の相対的な影響を間接的に推定できるということである。具体的には, 実演までの軌跡レベル距離と関連する軌道の戻り値の両方を考慮し, 軌道の重要性を得る。そして、その軌道の重要度を円滑に評価し、デモンストレーションの分布と報奨情報をマージすることにより、各状態-動作対に対する誘導報酬を算出する。理論上,円滑な誘導報酬による性能改善限界を解析し,性能改善の新たな最悪ケースを導出する。その結果, ベンチマークDRLアルゴリズムと比較して, POSGの制御性能と収束速度において有意な優位性を示した。特に,posgの優越性を示すために,特定指標と定量化結果について検討した。

関連論文リスト

Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Economic Battery Storage Dispatch with Deep Reinforcement Learning from Rule-Based Demonstrations [3.6117068575553595]
本研究では,ソフトアクター・クリティック(SAC)を拡張し,実演から学習するアプローチを提案する。グリッド接続型マイクログリッドのケーススタディを行い、電力の通販価格に基づくif-then-else文を用いてデモを収集する。
論文参考訳（メタデータ） (2025-04-06T02:16:42Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文参考訳（メタデータ） (2024-01-04T12:21:01Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
Reinforcement Learning with Sparse Rewards using Guidance from Offline Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文参考訳（メタデータ） (2022-02-09T18:45:40Z)
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文参考訳（メタデータ） (2020-04-01T15:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。