Fugu-MT 論文翻訳(概要): Advantage-Aware Policy Optimization for Offline Reinforcement Learning

論文の概要: Advantage-Aware Policy Optimization for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.07262v1
Date: Tue, 12 Mar 2024 02:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 23:01:26.342742
Title: Advantage-Aware Policy Optimization for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のためのアドバンテージ・アウェアポリシー最適化
Authors: Yunpeng Qing, Shunyu liu, Jingyuan Cong, Kaixuan Chen, Yihe Zhou, Mingli Song
Abstract要約: 本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。 A2POは条件付き変分自動エンコーダ(CVAE)を使用して、相互に絡み合った行動ポリシーの動作分布を歪めている。 D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験は、A2POが最先端のデータセットよりも優れた結果が得られることを示した。
参考スコア（独自算出の注目度）: 31.76484811491062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline Reinforcement Learning (RL) endeavors to leverage offline datasets to craft effective agent policy without online interaction, which imposes proper conservative constraints with the support of behavior policies to tackle the Out-Of-Distribution (OOD) problem. However, existing works often suffer from the constraint conflict issue when offline datasets are collected from multiple behavior policies, i.e., different behavior policies may exhibit inconsistent actions with distinct returns across the state space. To remedy this issue, recent Advantage-Weighted (AW) methods prioritize samples with high advantage values for agent training while inevitably leading to overfitting on these samples. In this paper, we introduce a novel Advantage-Aware Policy Optimization (A2PO) method to explicitly construct advantage-aware policy constraints for offline learning under mixed-quality datasets. Specifically, A2PO employs a Conditional Variational Auto-Encoder (CVAE) to disentangle the action distributions of intertwined behavior policies by modeling the advantage values of all training data as conditional variables. Then the agent can follow such disentangled action distribution constraints to optimize the advantage-aware policy towards high advantage values. Extensive experiments conducted on both the single-quality and mixed-quality datasets of the D4RL benchmark demonstrate that A2PO yields results superior to state-of-the-art counterparts. Our code will be made publicly available.
Abstract（参考訳）: オフライン強化学習(RL)は、オフラインデータセットを活用して、オンラインインタラクションなしで効果的なエージェントポリシーを構築するための取り組みであり、アウトオブオフ・ディストリビューション(OOD)問題に取り組むための行動ポリシーのサポートに適切な保守的な制約を課している。しかしながら、既存の作業は、オフラインデータセットが複数の行動ポリシーから収集される場合、すなわち、異なる行動ポリシーが状態空間をまたいだ異なるリターンを持つ一貫性のない行動を示す場合、制約競合問題に悩まされることが多い。この問題を解決するために、最近のAdvantage-Weighted (AW) 手法は、エージェントトレーニングに高い優位性を持つサンプルを優先するが、必然的にこれらのサンプルに過剰な適合をもたらす。本稿では,混合品質データセット下でのオフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。具体的には、A2POは条件変数として全てのトレーニングデータの利点値をモデル化することにより、相互に絡み合った行動ポリシーの動作分布を乱すために、条件変分オートエンコーダ(CVAE)を用いる。そして、エージェントはそのような非絡み合いの行動分布制約に従えば、有利な値に対する有利なポリシーを最適化することができる。 d4rlベンチマークの単一品質と混合品質のデータセットで行った広範囲な実験は、a2poが最先端のデータセットよりも優れた結果をもたらすことを示している。私たちのコードは公開されます。

関連論文リスト

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文参考訳（メタデータ） (2024-05-30T10:20:55Z)
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-09T13:47:05Z)
Policy Regularization with Dataset Constraint for Offline Reinforcement Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。 PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文参考訳（メタデータ） (2023-06-11T03:02:10Z)
Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文参考訳（メタデータ） (2023-03-05T03:35:11Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。