論文の概要: Trajectory-Oriented Policy Optimization with Sparse Rewards
- arxiv url: http://arxiv.org/abs/2401.02225v2
- Date: Tue, 6 Feb 2024 03:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:12:58.734410
- Title: Trajectory-Oriented Policy Optimization with Sparse Rewards
- Title(参考訳): スパース報酬を用いた軌道指向政策最適化
- Authors: Guojian Wang, Faguo Wu, Xiao Zhang
- Abstract要約: 本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
- 参考スコア(独自算出の注目度): 3.3270698477622784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mastering deep reinforcement learning (DRL) proves challenging in tasks
featuring scant rewards. These limited rewards merely signify whether the task
is partially or entirely accomplished, necessitating various exploration
actions before the agent garners meaningful feedback. Consequently, the
majority of existing DRL exploration algorithms struggle to acquire practical
policies within a reasonable timeframe. To address this challenge, we introduce
an approach leveraging offline demonstration trajectories for swifter and more
efficient online RL in environments with sparse rewards. Our pivotal insight
involves treating offline demonstration trajectories as guidance, rather than
mere imitation, allowing our method to learn a policy whose distribution of
state-action visitation marginally matches that of offline demonstrations. We
specifically introduce a novel trajectory distance relying on maximum mean
discrepancy (MMD) and cast policy optimization as a distance-constrained
optimization problem. We then illustrate that this optimization problem can be
streamlined into a policy-gradient algorithm, integrating rewards shaped by
insights from offline demonstrations. The proposed algorithm undergoes
evaluation across extensive discrete and continuous control tasks with sparse
and misleading rewards. The experimental findings demonstrate the significant
superiority of our proposed algorithm over baseline methods concerning diverse
exploration and the acquisition of an optimal policy.
- Abstract(参考訳): 深層強化学習(DRL)を習得することは、難解な報酬を含むタスクにおいて困難である。
これらの制限された報酬は、エージェントが有意義なフィードバックを得る前に、そのタスクが部分的に、または完全に完了しているかどうかを示すだけである。
その結果、既存のDRL探索アルゴリズムの大部分は、合理的な時間枠内で実践的なポリシーを取得するのに苦労している。
この課題に対処するため,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、オフラインデモの軌跡を単なる模倣ではなくガイダンスとして扱うことで、ステートアクション訪問の分布がオフラインデモのそれとわずかに一致するポリシーを学習できるようにすることです。
具体的には,最大平均偏差(mmd)とキャストポリシー最適化を距離制約最適化問題として用いる新しい軌道距離について紹介する。
そして、この最適化問題をポリシーグレードのアルゴリズムに合理化し、オフラインのデモから得られた洞察によって形成された報酬を統合することを示します。
提案手法は,広範囲にわたる離散的および連続的な制御タスクに対する評価を行う。
実験の結果,提案アルゴリズムは,多様な探索と最適方針の獲得に関して,ベースライン法よりも優れていることがわかった。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。