論文の概要: Pessimism-Free Offline Learning in General-Sum Games via KL Regularization
- arxiv url: http://arxiv.org/abs/2605.00264v1
- Date: Thu, 30 Apr 2026 21:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.77462
- Title: Pessimism-Free Offline Learning in General-Sum Games via KL Regularization
- Title(参考訳): KL正規化による一般サムゲームにおけるペシミズムフリーオフライン学習
- Authors: Claire Chen, Yuheng Zhang,
- Abstract要約: GANE(General-sum Anchored Nash Equilibrium)は、正規化されたナッシュリビアを加速統計速度で回復する。
GAMD(General-sum Anchored Mirror Descent)は、標準レートで粗相関平衡に収束する。
これらの結果は、悲観的なオフライン学習のためのスタンドアロンメカニズムとしてKL正規化を確立する。
- 参考スコア(独自算出の注目度): 17.179117375703566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline multi-agent reinforcement learning in general-sum settings is challenged by the distribution shift between logged datasets and target equilibrium policies. While standard methods rely on manual pessimistic penalties, we demonstrate that KL regularization suffices to stabilize learning and achieve equilibrium recovery. We propose General-sum Anchored Nash Equilibrium (GANE), which recovers regularized Nash equilibria at an accelerated statistical rate of $\widetilde{O}(1/n)$. For computational tractability, we develop General-sum Anchored Mirror Descent (GAMD), an iterative algorithm converging to a Coarse Correlated Equilibrium at the standard rate of $\widetilde{O}(1/\sqrt{n}+1/T)$. These results establish KL regularization as a standalone mechanism for pessimism-free offline learning that achieves equivalent or accelerated rates in multi-player general-sum games.
- Abstract(参考訳): 汎用設定におけるオフラインマルチエージェント強化学習は、ログ化されたデータセットと目標均衡ポリシーの間の分布シフトによって困難となる。
標準的な手法は手動の悲観的な罰則に依存するが、KL正則化は学習を安定させ平衡回復を達成するのに十分であることを示す。
本稿では,GANE(General-sum Anchored Nash Equilibrium)を提案する。
計算的トラクタビリティのために、粗相関平衡に収束する反復アルゴリズムであるGAMD(General-sum Anchored Mirror Descent)を$\widetilde{O}(1/\sqrt{n}+1/T)$で開発する。
これらの結果から、KL正規化は、マルチプレイヤー汎用ゲームにおいて等価または加速レートを達成する悲観論のないオフライン学習のスタンドアロンメカニズムとして確立される。
関連論文リスト
- Beyond Pessimism: Offline Learning in KL-regularized Games [20.08179140215738]
KL規則化された2プレイヤーゼロサムゲームにおけるオフライン学習について検討し、KL制約の下でポリシーを固定参照ポリシーに最適化する。
我々は、KL正規化ベストレスポンスの滑らかさと、スキュー対称性によって誘導されるナッシュ平衡の安定性に基づいて、KL正規化ゲームのための新しい悲観的フリーアルゴリズムと解析的フレームワークを開発する。
論文 参考訳(メタデータ) (2026-04-08T07:00:54Z) - Zeroth-Order Stackelberg Control in Combinatorial Congestion Games [24.797303933023567]
渋滞ゲームにおけるネットワークパラメータのStackelbergチューニングについて検討する。
ZO-StackelbergはプロジェクションフリーのFrank-Wolfe平衡解法とゼロ階外更新を結合する。
実世界のネットワークにおける実験により,本手法が微分ベースライン上での次数-次数-次数高速化を実現することを示す。
論文 参考訳(メタデータ) (2026-02-26T17:52:08Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Asymmetric regularization mechanism for GAN training with Variational Inequalities [1.529943343419486]
我々は,GANの学習をナッシュ均衡問題として定式化する。
古典的チホノフステップと新しいゼロ中心勾配ペナルティに基づく非対称正則化機構を提案する。
論文 参考訳(メタデータ) (2026-01-20T12:50:18Z) - Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games [53.447182734351]
Reverse Kullback-Leibler (KL) 正則化の下で, サンプル効率の向上を実現するアルゴリズムを開発し, 解析する。
我々は,2プレイヤーゼロサムマトリクスゲームとマルコフゲームの両方について検討する:マトリックスゲームでは,楽観的なボーナス付きベストレスポンスサンプリングに基づくアルゴリズムOMGを提案し,アルゴリズムSOMGを用いてマルコフゲームに拡張する。
両アルゴリズムは、標準の$widetildemathcalO(sqrtT)に加えて、KL正規化強度$beta$と共に逆スケールする$T$の対数後悔を実現する。
論文 参考訳(メタデータ) (2025-10-15T01:00:54Z) - Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games [44.95137108337898]
我々は、相関平衡を計算するために、ほぼ最適の$tildeO(T-1)$収束率を得る未結合のポリシー最適化アルゴリズムを提供する。
我々のアルゴリズムは2つの主要素(スムーズな値更新)と(楽観的で規則化されたリーダーアルゴリズムとログバリア正規化器)を組み合わせることで構築される。
論文 参考訳(メタデータ) (2024-01-26T23:13:47Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Provably Efficient Reinforcement Learning in Decentralized General-Sum
Markov Games [5.205867750232226]
本稿では,一般のマルコフゲームにおいて平衡を効率的に学習する問題に対処する。
本稿では,各エージェントが独立して楽観的なV-ラーニングを実行し,未知の環境を効率的に探索するアルゴリズムを提案する。
エージェントは少なくとも$widetildeO(H6S A /epsilon2)$ episodesで$epsilon$-approximate CCEを見つけることができる。
論文 参考訳(メタデータ) (2021-10-12T02:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。