論文の概要: Trajectory-Oriented Policy Optimization with Sparse Rewards
- arxiv url: http://arxiv.org/abs/2401.02225v1
- Date: Thu, 4 Jan 2024 12:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:06:00.030055
- Title: Trajectory-Oriented Policy Optimization with Sparse Rewards
- Title(参考訳): スパース報酬を用いた軌道指向政策最適化
- Authors: Guojian Wang, Faguo Wu, Xiao Zhang
- Abstract要約: 本研究では,オンラインRLのスパース報酬設定において,オフラインのデモトラジェクトリを高速かつ効率的に活用する手法を開発した。
我々のキーとなる洞察は、オフラインのデモの軌跡をガイダンスとして扱うことで、それらを模倣するのではなく、ステートアクションのビジター分布がオフラインのデモと一致したポリシーを学習することである。
提案アルゴリズムは, 離散的かつ連続的なタスクに対して, まばらで偽りの報奨を伴って評価する。
- 参考スコア(独自算出の注目度): 3.3270698477622784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) remains challenging in tasks with sparse
rewards. These sparse rewards often only indicate whether the task is partially
or fully completed, meaning that many exploration actions must be performed
before the agent obtains useful feedback. Hence, most existing DRL algorithms
fail to learn feasible policies within a reasonable time frame. To overcome
this problem, we develop an approach that exploits offline demonstration
trajectories for faster and more efficient online RL in sparse reward settings.
Our key insight is that by regarding offline demonstration trajectories as
guidance, instead of imitating them, our method learns a policy whose
state-action visitation marginal distribution matches that of offline
demonstrations. Specifically, we introduce a novel trajectory distance based on
maximum mean discrepancy (MMD) and formulate policy optimization as a
distance-constrained optimization problem. Then, we show that this
distance-constrained optimization problem can be reduced into a policy-gradient
algorithm with shaped rewards learned from offline demonstrations. The proposed
algorithm is evaluated on extensive discrete and continuous control tasks with
sparse and deceptive rewards. The experimental results indicate that our
proposed algorithm is significantly better than the baseline methods regarding
diverse exploration and learning the optimal policy.
- Abstract(参考訳): 深層強化学習(DRL)は, まばらな報酬を伴う課題において依然として困難な課題である。
これらのまばらな報酬は、しばしばタスクが部分的に完了したか完全に完了したかを示すだけであり、エージェントが有用なフィードバックを得る前に多くの探索行動を行う必要がある。
したがって、既存のDRLアルゴリズムは、合理的な時間枠内で実現可能なポリシーを学習できない。
この問題を克服するために,オフラインデモトラジェクタを利用する手法を開発し,より少ない報酬設定でより高速かつ効率的なオンラインrlを実現する。
私たちの重要な洞察は、オフラインデモの軌跡をガイダンスとして、それらを模倣する代わりに、オフラインデモのそれとステートアクション訪問の限界分布が一致するポリシーを学習することです。
具体的には、距離制約付き最適化問題として、最大平均誤差(MMD)と定式化ポリシー最適化に基づく新しい軌道距離を導入する。
そして,この距離制約付き最適化問題を,オフラインデモから学習した報酬を形作るポリシ勾配アルゴリズムに還元できることを示す。
提案アルゴリズムは, 離散的かつ連続的なタスクに対して, まばらで偽りの報奨を伴って評価する。
実験結果から,提案アルゴリズムは多様な探索法や最適政策の学習法よりもはるかに優れていることがわかった。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。