Fugu-MT 論文翻訳(概要): Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations

論文の概要: Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations

arxiv url: http://arxiv.org/abs/2401.00162v3
Date: Sat, 3 Aug 2024 01:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 23:55:54.572835
Title: Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations
Title（参考訳）: 国家専用デモから学んだスムースガイダンスによる政策最適化
Authors: Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen,
Abstract要約: 報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。 Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。 4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
参考スコア（独自算出の注目度）: 2.709826237514737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The sparsity of reward feedback remains a challenging problem in online deep reinforcement learning (DRL). Previous approaches have utilized offline demonstrations to achieve impressive results in multiple hard tasks. However, these approaches place high demands on demonstration quality, and obtaining expert-like actions is often costly and unrealistic. To tackle these problems, we propose a simple and efficient algorithm called Policy Optimization with Smooth Guidance (POSG), which leverages a small set of state-only demonstrations (where expert action information is not included in demonstrations) to indirectly make approximate and feasible long-term credit assignments and facilitate exploration. Specifically, we first design a trajectory-importance evaluation mechanism to determine the quality of the current trajectory against demonstrations. Then, we introduce a guidance reward computation technology based on trajectory importance to measure the impact of each state-action pair, fusing the demonstrator's state distribution with reward information into the guidance reward. We theoretically analyze the performance improvement caused by smooth guidance rewards and derive a new worst-case lower bound on the performance improvement. Extensive results demonstrate POSG's significant advantages in control performance and convergence speed in four sparse-reward environments, including the grid-world maze, Hopper-v4, HalfCheetah-v4, and Ant maze. Notably, the specific metrics and quantifiable results are investigated to demonstrate the superiority of POSG.
Abstract（参考訳）: 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。従来のアプローチでは、オフラインのデモを使用して、複数のハードタスクで印象的な結果を実現しています。しかしながら、これらのアプローチは、デモ品質に高い要求を課し、専門家のような行動を取得することは、しばしばコストがかかり非現実的である。これらの問題に対処するために,我々は,ごく少数の州のみのデモンストレーション(専門家の行動情報がデモに含まれていない)を活用して,間接的に近似的かつ有効な長期クレジットの割り当てを行い,探索を容易にする,簡易かつ効率的なPOSGアルゴリズムを提案する。具体的には、まず、実演に対する現在の軌道の質を決定するために、軌道重要度評価機構を設計する。そこで我々は,各状態-動作ペアの影響を計測するために,軌道重要度に基づく誘導報酬計算技術を導入する。我々は,スムーズな指導報酬による性能改善を理論的に分析し,性能改善に新たな最悪な下限を導出する。その結果、グリッドワールド迷路、Hopper-v4、HalfCheetah-v4、Ant迷路を含む4つの疎逆環境におけるPOSGの制御性能と収束速度に大きな利点が示された。特に、POSGの優位性を示すために、特定の測定値と定量化結果について検討した。

関連論文リスト

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文参考訳（メタデータ） (2026-02-28T05:41:57Z)
Fill in the Blanks: Accelerating Q-Learning with a Handful of Demonstrations in Sparse Reward Settings [4.446853669417819]
スパース・リワード環境における強化学習(RL)は、情報的フィードバックが欠如しているため、依然として重要な課題である。本稿では,RLエージェントの値関数を初期化するために,少数の成功例を用いた簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2025-10-28T14:01:13Z)
Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。 PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文参考訳（メタデータ） (2025-09-29T23:44:55Z)
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Economic Battery Storage Dispatch with Deep Reinforcement Learning from Rule-Based Demonstrations [3.6117068575553595]
本研究では,ソフトアクター・クリティック(SAC)を拡張し,実演から学習するアプローチを提案する。グリッド接続型マイクログリッドのケーススタディを行い、電力の通販価格に基づくif-then-else文を用いてデモを収集する。
論文参考訳（メタデータ） (2025-04-06T02:16:42Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文参考訳（メタデータ） (2024-01-04T12:21:01Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
Reinforcement Learning with Sparse Rewards using Guidance from Offline Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文参考訳（メタデータ） (2022-02-09T18:45:40Z)
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文参考訳（メタデータ） (2020-04-01T15:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。