論文の概要: Constrained Contextual Bandits with Adversarial Contexts
- arxiv url: http://arxiv.org/abs/2605.06190v1
- Date: Thu, 07 May 2026 13:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.808507
- Title: Constrained Contextual Bandits with Adversarial Contexts
- Title(参考訳): 逆文脈をもつ制約付きコンテキスト帯域
- Authors: Dhruv Sarkar, Abhishek Sinha,
- Abstract要約: 本研究では,予算制約のあるコンテキスト帯について,その逆の文脈を用いて検討する。
この設定において、目的は、後悔と予算制約の違反を同時に制御することである。
- 参考スコア(独自算出の注目度): 7.798233121583888
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study budget-constrained contextual bandits with adversarial contexts, where each action yields a random reward and incurs a random cost. We adopt the standard realizability assumption: conditioned on the observed context, rewards and costs are drawn independently from fixed distributions whose expectations belong to known function classes. We focus on the continuing setting, in which the algorithm operates over the entire horizon even after the budget for cumulative cost is exhausted. In this setting, the objective is to simultaneously control regret and the violation of the budget constraint. Building on the seminal $\mathsf{SquareCB}$ framework of Foster et al. [2018], we propose a simple and modular framework that leverages online regression oracles to reduce the constrained problem to a standard unconstrained contextual bandit problem with adaptively defined surrogate reward functions. In contrast to prior works, which focus on stochastic contexts, our reduction yields improved guarantees for more general adversarial contexts, together with an efficient algorithm with a compact and transparent analysis.
- Abstract(参考訳): 予算制約のあるコンテキスト帯について,各アクションがランダムな報酬を与え,ランダムなコストを発生させる逆の文脈を用いて検討する。
我々は、観測された文脈に基づいて、期待が既知の関数クラスに属する固定分布から、報酬とコストを独立に引き出すという標準的な実現可能性仮定を採用する。
我々は,累積コストの予算が枯渇した後でも,アルゴリズムが地平線全体に作用する継続的な設定に着目する。
この設定において、目的は、後悔と予算制約の違反を同時に制御することである。
Foster et al [2018] のセミナル $\mathsf{ SquareCB}$ framework に基づいて、オンライン回帰オラクルを利用して制約された問題を適応的に定義されたサロゲート報酬関数を持つ標準的な制約のない文脈的バンディット問題に還元する、シンプルでモジュラーなフレームワークを提案する。
確率的文脈に焦点をあてた先行研究とは対照的に、我々の削減は、より一般的な対角的文脈の保証を改善し、コンパクトで透明な分析を施した効率的なアルゴリズムと共に得られる。
関連論文リスト
- A Simple Reduction Scheme for Constrained Contextual Bandits with Adversarial Contexts via Regression [7.798233121583888]
制約付き文脈帯域幅を逆選択したコンテキストで検討し、各アクションがランダムな報酬を与え、ランダムなコストを発生させる。
我々は、観測された文脈に基づいて、期待が既知の関数クラスに属する固定分布から、報酬とコストを独立に引き出すという標準的な実現可能性仮定を採用する。
論文 参考訳(メタデータ) (2026-02-04T20:19:55Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG [4.69377227249912]
本稿ではトークン予算RAGのための冗長性を考慮したコンテキスト選択フレームワークであるAdaGReSを紹介する。
AdaGReSは、目的から派生した限界ゲインを用いてトークン予算制約の下で欲求選択を行う。
オープンドメイン質問応答(Natural Questions)と高冗長バイオメディカル(ドラッグ)コーパスの実験は、冗長性制御とコンテキスト品質の一貫性を実証している。
論文 参考訳(メタデータ) (2025-12-31T18:48:07Z) - Multi-Armed Bandits with Minimum Aggregated Revenue Constraints [27.081997104464012]
我々は、楽観的にパフォーマンスを優先するか、悲観的に制約満足度を強制するアルゴリズムを設計、分析する。
結果の時間的地平線への依存が一般に最適であることを示す下界を確立する。
論文 参考訳(メタデータ) (2025-10-14T13:47:34Z) - Proportional Response: Contextual Bandits for Simple and Cumulative
Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文 参考訳(メタデータ) (2023-07-05T08:34:54Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。