論文の概要: Optimal Regret for Policy Optimization in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2602.13700v1
- Date: Sat, 14 Feb 2026 09:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.351626
- Title: Optimal Regret for Policy Optimization in Contextual Bandits
- Title(参考訳): 文脈帯域における政策最適化のための最適レグレット
- Authors: Orin Levy, Yishay Mansour,
- Abstract要約: 本稿では,CMAB問題に適用したポリシー最適化手法に対する,最初の高確率最適後悔境界を提案する。
我々のアルゴリズムはどちらも効率的であり、$widetildeO(sqrt K|mathcalA|log|mathcalF|)$, $K$はラウンドの数、$mathcalA$はアームの集合、$mathcalF$は損失を近似する関数クラスである。
- 参考スコア(独自算出の注目度): 45.0314528751357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first high-probability optimal regret bound for a policy optimization technique applied to the problem of stochastic contextual multi-armed bandit (CMAB) with general offline function approximation. Our algorithm is both efficient and achieves an optimal regret bound of $\widetilde{O}(\sqrt{ K|\mathcal{A}|\log|\mathcal{F}|})$, where $K$ is the number of rounds, $\mathcal{A}$ is the set of arms, and $\mathcal{F}$ is the function class used to approximate the losses. Our results bridge the gap between theory and practice, demonstrating that the widely used policy optimization methods for the contextual bandit problem can achieve a rigorously-proved optimal regret bound. We support our theoretical results with an empirical evaluation of our algorithm.
- Abstract(参考訳): 一般のオフライン関数近似を用いた確率的コンテキスト型マルチアームバンドイット(CMAB)問題に適用したポリシー最適化手法に対する,最初の高確率最適後悔境界を提案する。
ここで、K$はラウンドの数、$\mathcal{A}$はアームの集合、$\mathcal{F}$は損失を近似する関数クラスである。
本研究は,理論と実践のギャップを埋め,文脈的バンディット問題に対して広く用いられているポリシー最適化手法が,厳密に証明された最適後悔境界を達成できることを実証した。
我々は,提案アルゴリズムの実証的な評価により理論的結果を支持する。
関連論文リスト
- Near-Optimal Regret for Policy Optimization in Contextual MDPs with General Offline Function Approximation [44.21807785944295]
文脈マルコフ決定プロセス(CMDP)のための最初のポリシー最適化アルゴリズムであるtextttOPO-CMDP を導入する。
提案手法は,$widetildeO(H4sqrtT|S||A|log(|mathcalF||mathcalP|)),$$S$と$A$は状態と行動空間,$H$は地平線,$T$はエピソード数,$mathcalFを表す。
論文 参考訳(メタデータ) (2026-02-14T10:17:29Z) - Optimal Strong Regret and Violation in Constrained MDPs via Policy Optimization [37.24692425018]
Emphconstrained MDPs(CMDPs)におけるオンライン学習の研究
提案アルゴリズムは, 対向型MDPに対して, 最先端のポリシー最適化アプローチを採用するプリミティブ・デュアル・スキームを実装している。
論文 参考訳(メタデータ) (2024-10-03T07:54:04Z) - Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback [34.7178680288326]
Stradi et al.(2024) は、マルコフ決定過程に制約のある最初のベスト・オブ・ボス・ワールドズ・アルゴリズムを提案した。
本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。
本アルゴリズムは政策最適化手法に基づいており, 占有率に基づく手法よりも効率的である。
論文 参考訳(メタデータ) (2024-10-03T07:44:40Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。