Fugu-MT 論文翻訳(概要): A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective

論文の概要: A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective

arxiv url: http://arxiv.org/abs/2403.07262v4
Date: Mon, 11 Nov 2024 10:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.320706
Title: A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective
Title（参考訳）: A2PO:アドバンテージ・アウェアの観点からの効果的なオフライン強化学習を目指して
Authors: Yunpeng Qing, Shunyu liu, Jingyuan Cong, Kaixuan Chen, Yihe Zhou, Mingli Song,
Abstract要約: 本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。 A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。 D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
参考スコア（独自算出の注目度）: 29.977702744504466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning endeavors to leverage offline datasets to craft effective agent policy without online interaction, which imposes proper conservative constraints with the support of behavior policies to tackle the out-of-distribution problem. However, existing works often suffer from the constraint conflict issue when offline datasets are collected from multiple behavior policies, i.e., different behavior policies may exhibit inconsistent actions with distinct returns across the state space. To remedy this issue, recent advantage-weighted methods prioritize samples with high advantage values for agent training while inevitably ignoring the diversity of behavior policy. In this paper, we introduce a novel Advantage-Aware Policy Optimization (A2PO) method to explicitly construct advantage-aware policy constraints for offline learning under mixed-quality datasets. Specifically, A2PO employs a conditional variational auto-encoder to disentangle the action distributions of intertwined behavior policies by modeling the advantage values of all training data as conditional variables. Then the agent can follow such disentangled action distribution constraints to optimize the advantage-aware policy towards high advantage values. Extensive experiments conducted on both the single-quality and mixed-quality datasets of the D4RL benchmark demonstrate that A2PO yields results superior to the counterparts. Our code is available at https://github.com/Plankson/A2PO
Abstract（参考訳）: オフライン強化学習はオフラインデータセットを活用して、オンラインインタラクションなしで効果的なエージェントポリシーを構築するための努力である。しかしながら、既存の作業は、オフラインデータセットが複数の行動ポリシーから収集される場合、すなわち、異なる行動ポリシーが状態空間をまたいだ異なるリターンを持つ一貫性のない行動を示す場合、制約競合問題に悩まされることが多い。この問題を解決するため、近年の利便重み付け手法では、行動方針の多様性を必然的に無視しつつ、エージェントトレーニングに高い優位性を持つサンプルを優先している。本稿では,混合品質データセット下でのオフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。具体的には、A2POは条件付き変分自動エンコーダを用いて、全てのトレーニングデータの利点値を条件変数としてモデル化することにより、相互に絡み合った行動ポリシーの動作分布をアンタングルする。そして、エージェントはそのような非絡み合いの行動分布制約に従えば、有利な値に対する有利なポリシーを最適化することができる。 D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された大規模な実験により、A2POがA2POよりも優れた結果が得られることが示された。私たちのコードはhttps://github.com/Plankson/A2POで利用可能です。

関連論文リスト

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning [10.037416068775853]
本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2025-12-03T17:05:58Z)
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文参考訳（メタデータ） (2024-05-30T10:20:55Z)
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-09T13:47:05Z)
Policy Regularization with Dataset Constraint for Offline Reinforcement Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。 PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文参考訳（メタデータ） (2023-06-11T03:02:10Z)
Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文参考訳（メタデータ） (2023-03-05T03:35:11Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。