論文の概要: Online KL-Regularized Reinforcement Learning with Function Approximation under Misspecification
- arxiv url: http://arxiv.org/abs/2606.06053v1
- Date: Thu, 04 Jun 2026 11:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.766099
- Title: Online KL-Regularized Reinforcement Learning with Function Approximation under Misspecification
- Title(参考訳): 関数近似を用いたオンラインKL正規化強化学習
- Authors: Haoyang Hong, Zichen Wang, Quanquan Gu, Huazheng Wang,
- Abstract要約: KL-regularized contextual bandits and episodic reinforcement learning (RL) under general function approximation with model misspecification。
既存の保証は実現可能性に依存しており、従って古典的後悔境界が失敗する可能性のある不特定モデルにまで拡張しない。
本研究は、文脈的包帯と韻律的RLに対するKLの不特定式を導入し、Gibsポリシー更新を用いて回帰に基づくアルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 70.9534986000242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study KL-regularized contextual bandits and episodic reinforcement learning (RL) under general function approximation with model misspecification. Existing guarantees rely on realizability and therefore do not extend to misspecified models, where classical regret bounds may fail. This work introduces KL misspecification formulations for contextual bandits and episodic RL and analyzes regression-based algorithms with Gibbs policy updates. High-probability KL-regret guarantees with explicit misspecification terms are established, recovering the standard realizable KL-regularized setting as a special case.
- Abstract(参考訳): KL-regularized contextual bandits and episodic reinforcement learning (RL) under general function approximation with model misspecification。
既存の保証は実現可能性に依存しており、従って古典的後悔境界が失敗する可能性のある不特定モデルにまで拡張しない。
本研究は、文脈的包帯と韻律的RLに対するKLの不特定式を導入し、Gibsポリシー更新を用いて回帰に基づくアルゴリズムを解析する。
高確率なKL-regret保証を明示的な不特定項で確立し、特殊なケースとして標準実現可能なKL-regularizedセッティングを回復する。
関連論文リスト
- Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。