Fugu-MT 論文翻訳(概要): Mutual Information Regularized Offline Reinforcement Learning

論文の概要: Mutual Information Regularized Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.07484v3
Date: Wed, 28 Feb 2024 01:37:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 19:33:36.397911
Title: Mutual Information Regularized Offline Reinforcement Learning
Title（参考訳）: 相互情報正規化オフライン強化学習
Authors: Xiao Ma, Bingyi Kang, Zhongwen Xu, Min Lin, Shuicheng Yan
Abstract要約: 我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
参考スコア（独自算出の注目度）: 76.05299071490913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The major challenge of offline RL is the distribution shift that appears when out-of-distribution actions are queried, which makes the policy improvement direction biased by extrapolation errors. Most existing methods address this problem by penalizing the policy or value for deviating from the behavior policy during policy improvement or evaluation. In this work, we propose a novel MISA framework to approach offline RL from the perspective of Mutual Information between States and Actions in the dataset by directly constraining the policy improvement direction. MISA constructs lower bounds of mutual information parameterized by the policy and Q-values. We show that optimizing this lower bound is equivalent to maximizing the likelihood of a one-step improved policy on the offline dataset. Hence, we constrain the policy improvement direction to lie in the data manifold. The resulting algorithm simultaneously augments the policy evaluation and improvement by adding mutual information regularizations. MISA is a general framework that unifies conservative Q-learning (CQL) and behavior regularization methods (e.g., TD3+BC) as special cases. We introduce 3 different variants of MISA, and empirically demonstrate that tighter mutual information lower bound gives better offline RL performance. In addition, our extensive experiments show MISA significantly outperforms a wide range of baselines on various tasks of the D4RL benchmark,e.g., achieving 742.9 total points on gym-locomotion tasks. Our code is available at https://github.com/sail-sg/MISA.
Abstract（参考訳）: オフラインRLの最大の課題は、アウト・オブ・ディストリビューション・アクションがクエリーされたときに現れる分布シフトである。既存の手法の多くは、政策改善や評価中に行動方針から逸脱する政策や価値を罰することでこの問題に対処している。本研究では,政策改善の方向性を直接拘束することで,データセット内の状態と行動間の相互情報の観点から,オフラインRLにアプローチする新しいMISAフレームワークを提案する。 MISAはポリシーとQ値によってパラメータ化された相互情報の下位境界を構成する。この下限を最適化することは、オフラインデータセット上のワンステップ改善ポリシーの可能性を最大化するのと同値である。したがって、我々は政策改善の方向性をデータ多様体に限定する。得られたアルゴリズムは、相互情報正規化を追加することにより、政策評価と改善を同時に強化する。 MISAは保守的なQ-ラーニング(CQL)と行動規則化(TD3+BC)を特別なケースとして統合する一般的なフレームワークである。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。さらに、我々の広範な実験により、MISAはD4RLベンチマークの様々なタスクにおける幅広いベースライン、例えば体育運動タスクで742.9ポイントを達成している。私たちのコードはhttps://github.com/sail-sg/MISAで利用可能です。

関連論文リスト

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation [20.162114513881118]
オフライン強化学習(RL)は、環境の相互作用を伴わずに行動ポリシーによって生成された固定データセットから最適なポリシーを学ぶことを目的としている。構築による制約の少ないサポート制約を強制するフローポリシーに基づくオフラインRL手法であるReFORMを提案する。
論文参考訳（メタデータ） (2026-02-04T21:03:11Z)
Behavior Preference Regression for Offline Reinforcement Learning [0.0]
オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文参考訳（メタデータ） (2025-03-02T15:13:02Z)
TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint [11.347808936693152]
モデルベースの強化学習アルゴリズムは、モデルベースの計画と学習された価値/政治を組み合わせる。バリューラーニングに標準のSACスタイルのポリシーイテレーションに依存する既存の手法は、しばしばエンハンピスタントな価値過大評価をもたらす。本稿では,ODAクエリを削減し,価値学習を改善する政策正規化項を提案する。
論文参考訳（メタデータ） (2025-02-05T19:08:42Z)
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文参考訳（メタデータ） (2024-05-30T10:20:55Z)
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-09T13:47:05Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文参考訳（メタデータ） (2023-03-05T03:35:11Z)
Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design [18.326126953667842]
オンラインモンテカルロ推定器のデータ効率を向上させる新しい手法を提案する。まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
論文参考訳（メタデータ） (2023-01-31T16:12:31Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
BRAC+: Improved Behavior Regularized Actor Critic for Offline Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文参考訳（メタデータ） (2021-10-02T23:55:49Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。