Fugu-MT 論文翻訳(概要): Efficient Contextual Bandits with Knapsacks via Regression

論文の概要: Efficient Contextual Bandits with Knapsacks via Regression

arxiv url: http://arxiv.org/abs/2211.07484v1
Date: Mon, 14 Nov 2022 16:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 16:36:15.941158
Title: Efficient Contextual Bandits with Knapsacks via Regression
Title（参考訳）: 回帰によるナップサックを用いた効率的なコンテクストバンディット
Authors: Aleksandrs Slivkins and Dylan Foster
Abstract要約: 我々は,knapsacks (CBwK) を用いた文脈的盗賊を,予算消費に世界的制約を課す文脈的盗賊の変種として検討する。我々のアルゴリズムは、CBwKのためのラグランジアンベースの手法であるLagrangeBwK(Immorlica et al., FOCS'19)と、文脈的包帯の回帰に基づく手法であるSquareCB(Foster and Rakhlin, ICML'20)を組み合わせる。
参考スコア（独自算出の注目度）: 80.25607101866117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider contextual bandits with knapsacks (CBwK), a variant of the contextual bandit which places global constraints on budget consumption. We present a new algorithm that is simple, statistically optimal, and computationally efficient. Our algorithm combines LagrangeBwK (Immorlica et al., FOCS'19), a Lagrangian-based technique for CBwK, and SquareCB (Foster and Rakhlin, ICML'20), a regression-based technique for contextual bandits. Our analysis emphasizes the modularity of both techniques.
Abstract（参考訳）: 我々は,knapsacks (CBwK) を用いた文脈的盗賊を,予算消費に世界的制約を課す文脈的盗賊の変種として検討する。本稿では,単純,統計的に最適,計算効率のよい新しいアルゴリズムを提案する。我々のアルゴリズムは、CBwKのためのラグランジアンベースの手法であるLagrangeBwK(Immorlica et al., FOCS'19)と、文脈的包帯の回帰に基づく手法であるSquareCB(Foster and Rakhlin, ICML'20)を組み合わせる。我々の分析は両手法のモジュラリティを強調している。

関連論文リスト

Best-of-Both Worlds for linear contextual bandits with paid observations [16.13456643813766]
本稿では,この問題に対する計算効率の良いBest-of-Both-Worldsアルゴリズムを提案する。また, 逆数設定では$Theta(T2/3)$のミニマックス最適後悔を達成し, 複数対数的後悔を(破損した)レジームで保証することを示した。
論文参考訳（メタデータ） (2025-10-08T18:23:37Z)
Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文参考訳（メタデータ） (2024-05-25T08:09:36Z)
No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization [26.415300249303748]
本研究は, 一次アルゴリズムと双対アルゴリズムを弱適応化させることにより, 制約のサブ線形違反を回避可能であることを示す。最初のケースでは、アルゴリズムがサブ線形後悔を保証することを示し、後者の場合、厳密な競合比を$rho/(1+rho)$とする。この結果から,線形制約付き文脈帯域問題に対する新たな結果が得られる。
論文参考訳（メタデータ） (2024-05-10T16:22:33Z)
Online Clustering of Bandits with Misspecified User Models [42.56440072468658]
コンテキスト線形バンディット(Contextual linear bandit)は、与えられた腕の特徴を学習エージェントが各ラウンドで選択し、長期の累積報酬を最大化するオンライン学習問題である。バンディットのクラスタリング(CB)と呼ばれる一連の研究は、ユーザの好みに対する協調効果を利用しており、古典的な線形バンディットアルゴリズムよりも大幅に改善されている。本稿では,不特定ユーザモデル (CBMUM) による盗賊のクラスタリングに関する重要な問題を初めて提示する。モデル誤特定による不正確なユーザの選好推定と誤クラスタリングを両立できる頑健なCBアルゴリズムRCLUMBとRCLUMBを考案した。
論文参考訳（メタデータ） (2023-10-04T10:40:50Z)
Optimal Contextual Bandits with Knapsacks under Realizibility via Regression Oracles [14.634964681825197]
我々は,knapsacks (CBwK) 問題を用いてコンテキスト的帯域幅について検討し,各行動がランダムな報酬をもたらす一方で,ベクトル形式のランダムなリソース消費を犠牲にしている。本稿では,CBwKをオンライン回帰に還元することで,CBwKの汎用的かつ最適なアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-21T09:28:53Z)
Contextual bandits with concave rewards, and an application to fair ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文参考訳（メタデータ） (2022-10-18T16:11:55Z)
On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文参考訳（メタデータ） (2022-03-29T14:02:03Z)
Improved Branch and Bound for Neural Network Verification via Lagrangian Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。 BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文参考訳（メタデータ） (2021-04-14T09:22:42Z)
Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文参考訳（メタデータ） (2020-12-24T05:36:29Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文参考訳（メタデータ） (2020-02-12T11:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。