Fugu-MT 論文翻訳(概要): Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots

論文の概要: Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots

arxiv url: http://arxiv.org/abs/2212.03117v2
Date: Thu, 25 Jul 2024 10:11:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 20:16:16.361690
Title: Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots
Title（参考訳）: Q-Pensieve:Q-Snapshotのメモリ共有による多目的RLのサンプル効率向上
Authors: Wei Hung, Bo-Kai Huang, Ping-Chun Hsieh, Xi Liu,
Abstract要約: そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
参考スコア（独自算出の注目度）: 11.533449955841968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many real-world continuous control problems are in the dilemma of weighing the pros and cons, multi-objective reinforcement learning (MORL) serves as a generic framework of learning control policies for different preferences over objectives. However, the existing MORL methods either rely on multiple passes of explicit search for finding the Pareto front and therefore are not sample-efficient, or utilizes a shared policy network for coarse knowledge sharing among policies. To boost the sample efficiency of MORL, we propose Q-Pensieve, a policy improvement scheme that stores a collection of Q-snapshots to jointly determine the policy update direction and thereby enables data sharing at the policy level. We show that Q-Pensieve can be naturally integrated with soft policy iteration with convergence guarantee. To substantiate this concept, we propose the technique of Q replay buffer, which stores the learned Q-networks from the past iterations, and arrive at a practical actor-critic implementation. Through extensive experiments and an ablation study, we demonstrate that with much fewer samples, the proposed algorithm can outperform the benchmark MORL methods on a variety of MORL benchmark tasks.
Abstract（参考訳）: 多くの実世界の継続的制御問題は、多目的強化学習(MORL)の長所と短所を測るジレンマにある。しかし、既存のMORL法は、パレートフロントを見つけるために複数の明示的な探索パスを頼りにしているため、サンプル効率は高くない。 MORLのサンプル効率を高めるために,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,政策更新の方向性を共同で決定し,政策レベルでのデータ共有を可能にする政策改善スキームである。本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。この概念を実証するために,学習したQ-ネットワークを過去の繰り返しから保存し,実践的なアクタ・クリティカルな実装に到達させるQリプレイバッファ手法を提案する。より広範な実験とアブレーションによる研究により,提案アルゴリズムは,より少ないサンプルで,様々なMORLベンチマークタスクにおいて,ベンチマークMORL法より優れていることを示す。

関連論文リスト

Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation [0.28675177318965045]
セキュリティ脆弱性を特定するためのサイバー攻撃のシミュレーションである侵入テストは、シーケンシャルな意思決定の問題を提示している。部分可観測性はマルコフ決定過程に存在するマルコフ特性を無効にする。実世界の複雑性をよりよく反映することを目的として,異なる大きさのホストネットワーク上での部分的に観測可能な浸透試験シナリオについて検討した。
論文参考訳（メタデータ） (2025-09-24T11:27:54Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。 In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-10T16:19:08Z)
Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。 DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文参考訳（メタデータ） (2024-06-02T09:32:28Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文参考訳（メタデータ） (2023-07-24T19:43:22Z)
QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing [18.127823952220123]
マルチタスク強化学習(MTRL)は、複数のタスクを同時に学習してサンプル効率を向上させることを目的としている。本稿では,既存のMTRLメソッドに加えて,タスク間での行動ポリシーを共有するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-02-01T18:58:20Z)
Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文参考訳（メタデータ） (2022-10-22T22:55:50Z)
SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文参考訳（メタデータ） (2020-06-25T13:06:59Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)
Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。 RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文参考訳（メタデータ） (2020-02-07T09:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。