論文の概要: Beyond Pessimism: Offline Learning in KL-regularized Games
- arxiv url: http://arxiv.org/abs/2604.06738v1
- Date: Wed, 08 Apr 2026 07:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.380656
- Title: Beyond Pessimism: Offline Learning in KL-regularized Games
- Title(参考訳): ペシミズムを超えて - KL正規化ゲームにおけるオフライン学習
- Authors: Yuheng Zhang, Claire Chen, Nan Jiang,
- Abstract要約: KL規則化された2プレイヤーゼロサムゲームにおけるオフライン学習について検討し、KL制約の下でポリシーを固定参照ポリシーに最適化する。
我々は、KL正規化ベストレスポンスの滑らかさと、スキュー対称性によって誘導されるナッシュ平衡の安定性に基づいて、KL正規化ゲームのための新しい悲観的フリーアルゴリズムと解析的フレームワークを開発する。
- 参考スコア(独自算出の注目度): 20.08179140215738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline learning in KL-regularized two-player zero-sum games, where policies are optimized under a KL constraint to a fixed reference policy. Prior work relies on pessimistic value estimation to handle distribution shift, yielding only $\widetilde{\mathcal{O}}(1/\sqrt n)$ statistical rates. We develop a new pessimism-free algorithm and analytical framework for KL-regularized games, built on the smoothness of KL-regularized best responses and a stability property of the Nash equilibrium induced by skew symmetry. This yields the first $\widetilde{\mathcal{O}}(1/n)$ sample complexity bound for offline learning in KL-regularized zero-sum games, achieved entirely without pessimism. We further propose an efficient self-play policy optimization algorithm and prove that, with a number of iterations linear in the sample size, it achieves the same fast $\widetilde{\mathcal{O}}(1/n)$ statistical rate as the minimax estimator.
- Abstract(参考訳): KL規則化された2プレイヤーゼロサムゲームにおけるオフライン学習について検討し、KL制約の下でポリシーを固定参照ポリシーに最適化する。
以前の研究は、分布シフトを扱うために悲観的な値の推定に頼っており、$\widetilde{\mathcal{O}}(1/\sqrt n)$ の統計率しか得られない。
我々は、KL正規化ベストレスポンスの滑らかさと、スキュー対称性によって誘導されるナッシュ平衡の安定性に基づいて、KL正規化ゲームのための新しい悲観的フリーアルゴリズムと解析的フレームワークを開発する。
これにより、KL正規化ゼロサムゲームにおいてオフライン学習に束縛された最初の$\widetilde{\mathcal{O}}(1/n)$サンプル複雑性が悲観的でない状態で達成される。
さらに、効率的なセルフプレイポリシー最適化アルゴリズムを提案し、サンプルサイズを線形に反復することで、ミニマックス推定器と同じ高速な$\widetilde{\mathcal{O}}(1/n)$統計率が得られることを証明した。
関連論文リスト
- Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。
我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文 参考訳(メタデータ) (2026-03-02T18:17:33Z) - Offline and Online KL-Regularized RLHF under Differential Privacy [15.993352181567872]
人的フィードバックから強化学習のオフラインおよびオンライン設定について検討する。
オフライン環境では、悲観主義の原理に基づくアルゴリズムを設計する。
オンライン環境では、我々はDPを用いたKL正規化RLHFの問題を理論的に研究した最初の人物である。
論文 参考訳(メタデータ) (2025-10-15T13:04:19Z) - Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games [53.447182734351]
Reverse Kullback-Leibler (KL) 正則化の下で, サンプル効率の向上を実現するアルゴリズムを開発し, 解析する。
我々は,2プレイヤーゼロサムマトリクスゲームとマルコフゲームの両方について検討する:マトリックスゲームでは,楽観的なボーナス付きベストレスポンスサンプリングに基づくアルゴリズムOMGを提案し,アルゴリズムSOMGを用いてマルコフゲームに拡張する。
両アルゴリズムは、標準の$widetildemathcalO(sqrtT)に加えて、KL正規化強度$beta$と共に逆スケールする$T$の対数後悔を実現する。
論文 参考訳(メタデータ) (2025-10-15T01:00:54Z) - Actor-Critics Can Achieve Optimal Sample Efficiency [15.033410073144939]
我々は,$O(dH5 log|mathcalA|/epsilon2 + dH4 log|mathcalF|/epsilon2)$ trajectories のサンプル複雑度を得る新しいアクター批判アルゴリズムを提案する。
我々はこれをHybrid RLの設定にまで拡張し、批評家をオフラインデータで初期化すると、純粋なオフラインやオンラインRLに比べてサンプル効率が向上することを示した。
論文 参考訳(メタデータ) (2025-05-06T17:32:39Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Achieving the Asymptotically Optimal Sample Complexity of Offline Reinforcement Learning: A DRO-Based Approach [36.88301225561535]
オフライン強化学習は、アクティブな探索なしに、事前に収集されたデータセットから学習することを目的としている。
既存のアプローチでは、不確実性に対する悲観的なスタンスを採用し、探索されていない状態-作用対の報酬を、保守的に値関数を推定する。
分散ロバスト最適化(DRO)に基づくアプローチはこれらの課題にも対処でき、漸近的に最小限の最適化であることを示す。
論文 参考訳(メタデータ) (2023-05-22T17:50:18Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。