論文の概要: General Flexible $f$-divergence for Challenging Offline RL Datasets with Low Stochasticity and Diverse Behavior Policies
- arxiv url: http://arxiv.org/abs/2602.11087v1
- Date: Wed, 11 Feb 2026 17:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.273399
- Title: General Flexible $f$-divergence for Challenging Offline RL Datasets with Low Stochasticity and Diverse Behavior Policies
- Title(参考訳): オフラインRLデータセットを低確率・横振舞いで整合する一般フレキシブル$f$-divergence
- Authors: Jianxun Wang, Grant C. Forbes, Leonardo Villalobos-Arias, David L. Roberts,
- Abstract要約: オフラインのRLアルゴリズムは、収集したデータを生成する行動ポリシーを改善することを目的としており、学習したポリシーはデータセットのサポート内にあることを制限している。
本稿では,オフライン学習データセットに基づくアルゴリズムの学習目標に対する適応的制約を組み込むために,$f$-divergenceに対する一般的なフレキシブル関数の定式化を導入する。
MuJoCo、Fetch、AdroitHand環境の実験結果から、提案したLP形式の正しさと、互換性のある制約付き最適化アルゴリズムに適用した場合に、困難なデータセットから学習のパフォーマンスを改善するための柔軟な$f$-divergenceの可能性が示された。
- 参考スコア(独自算出の注目度): 4.098989232625628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline RL algorithms aim to improve upon the behavior policy that produces the collected data while constraining the learned policy to be within the support of the dataset. However, practical offline datasets often contain examples with little diversity or limited exploration of the environment, and from multiple behavior policies with diverse expertise levels. Limited exploration can impair the offline RL algorithm's ability to estimate \textit{Q} or \textit{V} values, while constraining towards diverse behavior policies can be overly conservative. Such datasets call for a balance between the RL objective and behavior policy constraints. We first identify the connection between $f$-divergence and optimization constraint on the Bellman residual through a more general Linear Programming form for RL and the convex conjugate. Following this, we introduce the general flexible function formulation for the $f$-divergence to incorporate an adaptive constraint on algorithms' learning objectives based on the offline training dataset. Results from experiments on the MuJoCo, Fetch, and AdroitHand environments show the correctness of the proposed LP form and the potential of the flexible $f$-divergence in improving performance for learning from a challenging dataset when applied to a compatible constrained optimization algorithm.
- Abstract(参考訳): オフラインRLアルゴリズムは、収集したデータを生成する行動ポリシーを改善しつつ、学習したポリシーをデータセットのサポート内に制約することを目的としている。
しかしながら、実際のオフラインデータセットには、環境の多様性や限定的な探索の少ない例や、多様な専門レベルを持つ複数の行動ポリシーが含まれていることが多い。
限定的な探索は、オフラインのRLアルゴリズムが \textit{Q} または \textit{V} の値を推定する能力を損なう可能性があるが、多様な行動ポリシーへの制約は過度に保守的である。
このようなデータセットは、RLの目的と行動ポリシーの制約のバランスを要求する。
まず、RL と凸共役のより一般的な線形計画形式を通して、ベルマン残差に対する$f$-divergence と最適化制約の接続を同定する。
次に、オフライン学習データセットに基づくアルゴリズムの学習目標に対する適応的制約を組み込むために、$f$-divergenceに対する一般的なフレキシブル関数の定式化を導入する。
MuJoCo、Fetch、AdroitHand環境の実験結果から、提案したLP形式の正しさと、互換性のある制約付き最適化アルゴリズムに適用した場合に、困難なデータセットから学習のパフォーマンスを改善するための柔軟な$f$-divergenceの可能性が示された。
関連論文リスト
- Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Adaptive Scaling of Policy Constraints for Offline Reinforcement Learning [24.46783760408068]
オフライン強化学習(RL)は、環境の相互作用なしに、固定データセットから効果的なポリシーを学習することを可能にする。
既存の方法は、通常、オフラインのRLトレーニングで遭遇する分散シフトを軽減するためにポリシー制約を使用する。
本稿では,RLと行動クローニング(BC)を動的にバランスする2階微分可能なフレームワークであるAdaptive Scaling of Policy Constraints (ASPC)を提案する。
論文 参考訳(メタデータ) (2025-08-27T14:00:18Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data [28.445166861907495]
我々は,TMISオフライン政策評価(OPE)推定器の理論を開発する。
我々は、その推定誤差に基づいて高確率、インスタンス依存境界を導出する。
また,適応環境での極小最適オフライン学習を復元する。
論文 参考訳(メタデータ) (2023-06-24T21:48:28Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。