論文の概要: A Simple Reduction Scheme for Constrained Contextual Bandits with Adversarial Contexts via Regression
- arxiv url: http://arxiv.org/abs/2602.05019v1
- Date: Wed, 04 Feb 2026 20:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.601256
- Title: A Simple Reduction Scheme for Constrained Contextual Bandits with Adversarial Contexts via Regression
- Title(参考訳): 回帰による制約付きコンテキスト帯域の簡易削減手法
- Authors: Dhruv Sarkar, Abhishek Sinha,
- Abstract要約: 制約付き文脈帯域幅を逆選択したコンテキストで検討し、各アクションがランダムな報酬を与え、ランダムなコストを発生させる。
我々は、観測された文脈に基づいて、期待が既知の関数クラスに属する固定分布から、報酬とコストを独立に引き出すという標準的な実現可能性仮定を採用する。
- 参考スコア(独自算出の注目度): 7.798233121583888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study constrained contextual bandits (CCB) with adversarially chosen contexts, where each action yields a random reward and incurs a random cost. We adopt the standard realizability assumption: conditioned on the observed context, rewards and costs are drawn independently from fixed distributions whose expectations belong to known function classes. We consider the continuing setting, in which the algorithm operates over the entire horizon even after the budget is exhausted. In this setting, the objective is to simultaneously control regret and cumulative constraint violation. Building on the seminal SquareCB framework of Foster et al. (2018), we propose a simple and modular algorithmic scheme that leverages online regression oracles to reduce the constrained problem to a standard unconstrained contextual bandit problem with adaptively defined surrogate reward functions. In contrast to most prior work on CCB, which focuses on stochastic contexts, our reduction yields improved guarantees for the more general adversarial context setting, together with a compact and transparent analysis.
- Abstract(参考訳): 制約付き文脈帯域幅(CCB)を逆選択したコンテキストを用いて検討し、各アクションがランダムな報酬を与え、ランダムなコストを発生させる。
我々は、観測された文脈に基づいて、期待が既知の関数クラスに属する固定分布から、報酬とコストを独立に引き出すという標準的な実現可能性仮定を採用する。
予算が枯渇した後もアルゴリズムが地平線全体にわたって機能する継続的な設定について検討する。
この設定では、後悔と累積的制約違反を同時に制御することが目的である。
Foster et al (2018) のセミナー SquareCB フレームワークをベースとして,制約付き問題を適応的に定義されたサロゲート報酬関数を持つ標準の制約のない文脈的帯域問題に還元するために,オンライン回帰オラクルを利用する,単純でモジュラーなアルゴリズムスキームを提案する。
確率的文脈に焦点をあてたCCBに関するこれまでのほとんどの研究とは対照的に、我々の削減は、コンパクトで透明な分析とともに、より一般的な対角的文脈設定の保証を改善した。
関連論文リスト
- Conformal Bandits: Bringing statistical validity and reward efficiency to the small-gap regime [0.39082875522676397]
本稿では,コンフォーマル予測を帯域問題に組み込む新しいフレームワークであるConformal Banditsを紹介する。
有限時間予測カバレッジという形で統計的保証を施した意思決定の盗賊政策の後悔を最小化する可能性を橋渡しする。
これに触発された私たちは、小さなギャップ設定での後悔の観点から、我々のフレームワークの実践的な優位性を示します。
論文 参考訳(メタデータ) (2025-12-10T17:34:55Z) - Multi-Armed Bandits with Minimum Aggregated Revenue Constraints [27.081997104464012]
我々は、楽観的にパフォーマンスを優先するか、悲観的に制約満足度を強制するアルゴリズムを設計、分析する。
結果の時間的地平線への依存が一般に最適であることを示す下界を確立する。
論文 参考訳(メタデータ) (2025-10-14T13:47:34Z) - Proportional Response: Contextual Bandits for Simple and Cumulative
Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文 参考訳(メタデータ) (2023-07-05T08:34:54Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。