論文の概要: Less is More: Clustered Cross-Covariance Control for Offline RL
- arxiv url: http://arxiv.org/abs/2601.20765v2
- Date: Sat, 31 Jan 2026 08:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.695776
- Title: Less is More: Clustered Cross-Covariance Control for Offline RL
- Title(参考訳): 詳細:オフラインRLのためのクラスタ型クロス共分散制御
- Authors: Nan Qiao, Sheng Yue, Shuning Wang, Yongheng Deng, Ju Ren,
- Abstract要約: オフライン強化学習における基本的な課題は、分散シフトである。
ローカルなリプレイパーティションへの更新を制限する分割バッファサンプリングを提案する。
また,各更新における共分散誘発バイアスを解消する,明確な勾配に基づく補正ペナルティも導入する。
- 参考スコア(独自算出の注目度): 13.198112768636207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in offline reinforcement learning is distributional shift. Scarce data or datasets dominated by out-of-distribution (OOD) areas exacerbate this issue. Our theoretical analysis and experiments show that the standard squared error objective induces a harmful TD cross covariance. This effect amplifies in OOD areas, biasing optimization and degrading policy learning. To counteract this mechanism, we develop two complementary strategies: partitioned buffer sampling that restricts updates to localized replay partitions, attenuates irregular covariance effects, and aligns update directions, yielding a scheme that is easy to integrate with existing implementations, namely Clustered Cross-Covariance Control for TD (C^4). We also introduce an explicit gradient-based corrective penalty that cancels the covariance induced bias within each update. We prove that buffer partitioning preserves the lower bound property of the maximization objective, and that these constraints mitigate excessive conservatism in extreme OOD areas without altering the core behavior of policy constrained offline reinforcement learning. Empirically, our method showcases higher stability and up to 30% improvement in returns over prior methods, especially with small datasets and splits that emphasize OOD areas.
- Abstract(参考訳): オフライン強化学習における基本的な課題は、分散シフトである。
アウト・オブ・ディストリビューション(OOD)が支配するデータやデータセットがこの問題を悪化させる。
我々の理論解析と実験により、標準二乗誤差目標が有害なTD交差共分散を誘導することが示された。
この効果は、OOD領域を増幅し、最適化をバイアス化し、ポリシー学習を劣化させる。
このメカニズムに対抗するために、我々は2つの相補的な戦略を開発する: 分割バッファサンプリングは、局所的なリプレイパーティションへの更新を制限し、不規則な共分散効果を減衰させ、更新方向を調整し、既存の実装と容易に統合できるスキーム、すなわち、TDのためのクラスタ化クロス共分散制御(C^4)を提供する。
また,各更新における共分散誘発バイアスを解消する,明確な勾配に基づく補正ペナルティも導入する。
バッファ分割は最大化目標の下位境界特性を保ち、これらの制約は、ポリシー制約付きオフライン強化学習のコア動作を変化させることなく、極端なOOD領域における過度な保守性を軽減することを証明している。
実験では,OOD領域を強調する小さなデータセットや分割を用いて,従来手法よりも高い安定性と最大30%のリターン向上を示す。
関連論文リスト
- Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Partial Action Replacement: Tackling Distribution Shift in Offline MARL [11.861550409939818]
オフラインマルチエージェント強化学習(MARL)は、アウト・オブ・ディストリビューション・ジョイント・アクションを評価することの難しさによって著しく妨げられている。
我々は、OOD問題を緩和し、異なるPAR戦略を動的に重み付けするために、SPaCQL(Soft-Partial conservative Q-Learning)を開発した。
また,SPaCQLは不確実性インフォームドウェイトを用いた分散シフトに適応的に対応していることを示す。
論文 参考訳(メタデータ) (2025-11-10T20:56:58Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。