論文の概要: Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through
Memory Sharing of Q-Snapshots
- arxiv url: http://arxiv.org/abs/2212.03117v1
- Date: Tue, 6 Dec 2022 16:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:36:35.984269
- Title: Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through
Memory Sharing of Q-Snapshots
- Title(参考訳): Q-Pensieve:Q-Snapshotのメモリ共有による多目的RLのサンプル効率向上
- Authors: Wei Hung, Bo-Kai Huang, Ping-Chun Hsieh, Xi Liu
- Abstract要約: そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
- 参考スコア(独自算出の注目度): 8.610425739792284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world continuous control problems are in the dilemma of weighing
the pros and cons, multi-objective reinforcement learning (MORL) serves as a
generic framework of learning control policies for different preferences over
objectives. However, the existing MORL methods either rely on multiple passes
of explicit search for finding the Pareto front and therefore are not
sample-efficient, or utilizes a shared policy network for coarse knowledge
sharing among policies. To boost the sample efficiency of MORL, we propose
Q-Pensieve, a policy improvement scheme that stores a collection of Q-snapshots
to jointly determine the policy update direction and thereby enables data
sharing at the policy level. We show that Q-Pensieve can be naturally
integrated with soft policy iteration with convergence guarantee. To
substantiate this concept, we propose the technique of Q replay buffer, which
stores the learned Q-networks from the past iterations, and arrive at a
practical actor-critic implementation. Through extensive experiments and an
ablation study, we demonstrate that with much fewer samples, the proposed
algorithm can outperform the benchmark MORL methods on a variety of MORL
benchmark tasks.
- Abstract(参考訳): 多目的強化学習(morl:multi-objective reinforcement learning)は、目的よりも異なる選好の学習制御ポリシーの汎用的な枠組みとして機能する。
しかしながら、既存のmorlメソッドは、paretoフロントを見つけるために明示的な検索の複数のパスに依存するため、サンプル効率が低く、ポリシー間の粗い知識共有のために共有ポリシーネットワークを利用する。
MORLのサンプル効率を高めるために,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,政策更新方向を共同で決定し,政策レベルでのデータ共有を可能にする政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
この概念を実証するために,学習したQ-ネットワークを過去の繰り返しから保存し,実践的なアクタ批判的実装に到達させるQリプレイバッファ手法を提案する。
広範囲な実験とアブレーション研究を通じて,提案アルゴリズムはより少ないサンプルで様々なmorlベンチマークタスクにおいて,ベンチマークモール法を上回ることができることを実証した。
関連論文リスト
- Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing [18.127823952220123]
マルチタスク強化学習(MTRL)は、複数のタスクを同時に学習してサンプル効率を向上させることを目的としている。
本稿では,既存のMTRLメソッドに加えて,タスク間での行動ポリシーを共有するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:58:20Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。