論文の概要: Taming the Monster Every Context: Complexity Measure and Unified Framework for Offline-Oracle Efficient Contextual Bandits
- arxiv url: http://arxiv.org/abs/2602.09456v1
- Date: Tue, 10 Feb 2026 06:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.412425
- Title: Taming the Monster Every Context: Complexity Measure and Unified Framework for Offline-Oracle Efficient Contextual Bandits
- Title(参考訳): Monsterのすべてのコンテキストをタグ付けする: 複雑さを計測し、Oracleのオフラインで効率的なコンテキスト帯域を統一するフレームワーク
- Authors: Hao Qin, Chicheng Zhang,
- Abstract要約: 一般報酬関数近似による文脈的帯域学習をオフライン回帰に還元するアルゴリズムフレームワークOE2Dを提案する。
このフレームワークは、$O(log(T))$のオフライン回帰オラクルを$T$のラウンドで呼び出す大きなアクション空間を持つコンテキスト的バンディットに対して、ほぼ最適に後悔することができる。
我々の後悔分析の中心は、Decision-Offline Estimation Coefficient (DOEC)と呼ばれる新しい複雑さ尺度であり、これはコンテキストごとの有界エルダー次元とスムーズな後悔設定で表される。
- 参考スコア(独自算出の注目度): 17.2911371867411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an algorithmic framework, Offline Estimation to Decisions (OE2D), that reduces contextual bandit learning with general reward function approximation to offline regression. The framework allows near-optimal regret for contextual bandits with large action spaces with $O(log(T))$ calls to an offline regression oracle over $T$ rounds, and makes $O(loglog(T))$ calls when $T$ is known. The design of OE2D algorithm generalizes Falcon~\citep{simchi2022bypassing} and its linear reward version~\citep[][Section 4]{xu2020upper} in that it chooses an action distribution that we term ``exploitative F-design'' that simultaneously guarantees low regret and good coverage that trades off exploration and exploitation. Central to our regret analysis is a new complexity measure, the Decision-Offline Estimation Coefficient (DOEC), which we show is bounded in bounded Eluder dimension per-context and smoothed regret settings. We also establish a relationship between DOEC and Decision Estimation Coefficient (DEC)~\citep{foster2021statistical}, bridging the design principles of offline- and online-oracle efficient contextual bandit algorithms for the first time.
- Abstract(参考訳): 一般報酬関数近似による文脈的帯域学習をオフライン回帰に還元するアルゴリズムフレームワークOE2Dを提案する。
このフレームワークは、$O(log(T))$呼び出しが$T$のラウンドでオフラインのレグレッション・オラクルを呼び出し、$O(log(T))$呼び出しが$T$を知っていれば$O(log(T))$呼び出しをほぼ最適に行うことができる。
OE2Dアルゴリズムの設計は、Falcon~\citep{simchi2022bypassing}とその線形報酬バージョン~\citep[][Section 4]{xu2020upper}を一般化し、探索と搾取をトレードオフする低い後悔と良好なカバレッジを同時に保証する `exploitative F-design' と呼ぶアクション分布を選択する。
我々の後悔分析の中心は、Decision-Offline Estimation Coefficient (DOEC)と呼ばれる新しい複雑さ尺度であり、これはコンテキストごとの有界エルダー次元とスムーズな後悔設定で表される。
また、DOEC と決定推定係数 (DEC)~\citep{foster2021statistical} の関係も確立し、オフラインおよびオンラインのオーラルな効率的な文脈的バンディットアルゴリズムの設計原則を初めて橋渡しする。
関連論文リスト
- Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T01:42:03Z) - Exploration by Optimization with Hybrid Regularizers: Logarithmic Regret with Adversarial Robustness in Partial Monitoring [41.20252349191698]
部分的な監視は、限られたフィードバックを伴うオンライン意思決定問題の一般的なフレームワークである。
ハイブリッド正規化器を用いたExOの新しいフレームワークと解析法を提案する。
特に、$O(sum_a neq a*)$で、$k$、$m$、$T$はアクション、観察、ラウンドの数である。
論文 参考訳(メタデータ) (2024-02-13T09:34:22Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Bypassing the Monster: A Faster and Simpler Optimal Algorithm for
Contextual Bandits under Realizability [18.45278329799526]
オフライン回帰オラクルへの$O(log T)$呼び出しだけで統計的に最適な後悔を実現する高速で単純なアルゴリズムを設計する。
この結果は、文脈的帯域幅からオフライン回帰への最初の普遍的かつ最適の還元を提供する。
論文 参考訳(メタデータ) (2020-03-28T04:16:52Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。