論文の概要: Trajectory-Oriented Policy Optimization with Sparse Rewards
- arxiv url: http://arxiv.org/abs/2401.02225v3
- Date: Wed, 10 Apr 2024 14:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 18:56:10.853473
- Title: Trajectory-Oriented Policy Optimization with Sparse Rewards
- Title(参考訳): スパースリワードを用いた軌道指向政策最適化
- Authors: Guojian Wang, Faguo Wu, Xiao Zhang,
- Abstract要約: 本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
- 参考スコア(独自算出の注目度): 2.9602904918952695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mastering deep reinforcement learning (DRL) proves challenging in tasks featuring scant rewards. These limited rewards merely signify whether the task is partially or entirely accomplished, necessitating various exploration actions before the agent garners meaningful feedback. Consequently, the majority of existing DRL exploration algorithms struggle to acquire practical policies within a reasonable timeframe. To address this challenge, we introduce an approach leveraging offline demonstration trajectories for swifter and more efficient online RL in environments with sparse rewards. Our pivotal insight involves treating offline demonstration trajectories as guidance, rather than mere imitation, allowing our method to learn a policy whose distribution of state-action visitation marginally matches that of offline demonstrations. We specifically introduce a novel trajectory distance relying on maximum mean discrepancy (MMD) and cast policy optimization as a distance-constrained optimization problem. We then illustrate that this optimization problem can be streamlined into a policy-gradient algorithm, integrating rewards shaped by insights from offline demonstrations. The proposed algorithm undergoes evaluation across extensive discrete and continuous control tasks with sparse and misleading rewards. The experimental findings demonstrate the significant superiority of our proposed algorithm over baseline methods concerning diverse exploration and the acquisition of an optimal policy.
- Abstract(参考訳): 深層強化学習(DRL)を習得することは、難解な報酬を含むタスクにおいて困難である。
これらの制限された報酬は、エージェントが有意義なフィードバックを得る前に、そのタスクが部分的に、または完全に完了しているかどうかを示すだけである。
その結果、既存のDRL探索アルゴリズムの大部分は、合理的な時間枠内で実践的なポリシーを取得するのに苦労している。
この課題に対処するために、スパース報酬のある環境において、オフラインのデモトラジェクトリを活用して、より迅速で効率的なオンラインRLを実現するアプローチを提案する。
我々の重要な洞察は、単なる模倣ではなく、オフラインの実証軌道をガイダンスとして扱うことである。
具体的には、距離制約付き最適化問題として、最大平均誤差(MMD)とキャストポリシー最適化に依存する新しい軌道距離を導入する。
次に、この最適化問題は、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合することで、ポリシー段階のアルゴリズムに合理化できることを示す。
提案アルゴリズムは、離散的かつ連続的なタスクに対して、スパースとミスリードの報酬を伴う評価を行う。
実験により, 多様な探索法と最適政策の獲得に関して, 提案アルゴリズムの基準法よりも有意な優位性を示した。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。