論文の概要: Self-Tuning Bandits over Unknown Covariate-Shifts
- arxiv url: http://arxiv.org/abs/2007.08584v4
- Date: Sun, 21 Feb 2021 04:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:21:50.551750
- Title: Self-Tuning Bandits over Unknown Covariate-Shifts
- Title(参考訳): 未知共変量シフト上の自己チューニングバンド
- Authors: Joseph Suk and Samory Kpotufe
- Abstract要約: 非パラメトリックな文脈的包帯は、シフトの時間やシフトの量を知ることなく適応的に達成できることを示す。
我々は,文脈分布の変化の連続性を強く捉えた新たな後悔境界を導出する。
これらのレートは、シフトの時間やシフトの量を知ることなく適応的に達成できることを示す。
- 参考スコア(独自算出の注目度): 7.982668978293684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bandits with covariates, a.k.a. contextual bandits, address situations where
optimal actions (or arms) at a given time $t$, depend on a context $x_t$, e.g.,
a new patient's medical history, a consumer's past purchases. While it is
understood that the distribution of contexts might change over time, e.g., due
to seasonalities, or deployment to new environments, the bulk of studies
concern the most adversarial such changes, resulting in regret bounds that are
often worst-case in nature.
Covariate-shift on the other hand has been considered in classification as a
middle-ground formalism that can capture mild to relatively severe changes in
distributions. We consider nonparametric bandits under such middle-ground
scenarios, and derive new regret bounds that tightly capture a continuum of
changes in context distribution. Furthermore, we show that these rates can be
adaptively attained without knowledge of the time of shift nor the amount of
shift.
- Abstract(参考訳): コヴァリエート、すなわちコンテクスト・バンディット(文脈的バンディット)によるバンディットは、与えられた時間に最適なアクション(または腕)がt$で、コンテキストが$x_t$、例えば新しい患者の医療歴、消費者の過去の購入に依存する状況に対処する。
文脈の分布は、季節性や新しい環境への展開などによって時間とともに変化する可能性があると理解されているが、多くの研究はそのような変化を最も敵対的に扱うことに関心を持ち、自然界で最悪の場合となる。
一方、共変量シフトは、分布の軽度から比較的厳しい変化を捉えることができる中間的な形式主義として分類されている。
このような中盤シナリオでは, 非パラメトリックな帯域幅を考慮し, 文脈分布の変化の連続性を強く捉えた新たな後悔境界を導出する。
さらに,シフト時間やシフト量を知ることなく,これらのレートを適応的に達成できることを示す。
関連論文リスト
- Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Tracking Most Significant Shifts in Nonparametric Contextual Bandits [4.985768723667416]
リプシッツは報酬関数が時間とともに変化する可能性のある非パラメトリックな文脈的包帯について検討する。
私たちはまず、このあまり理解されていない環境で、ミニマックスのダイナミックな後悔率を確立します。
そして、この設定では最先端の手続きが準最適であると論じる。
論文 参考訳(メタデータ) (2023-07-11T15:29:26Z) - Unleashing the Power of Graph Data Augmentation on Covariate
Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。
AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文 参考訳(メタデータ) (2022-11-05T07:55:55Z) - Tighter PAC-Bayes Generalisation Bounds by Leveraging Example Difficulty [5.799808780731661]
過剰リスクの修正版を導入します。
より厳密で高速なPAC-ベイジアン一般化境界を得るのに使うことができる。
我々は、これらの新しい境界を実世界のデータセットで実証的に評価する。
論文 参考訳(メタデータ) (2022-10-20T14:14:52Z) - Foolish Crowds Support Benign Overfitting [20.102619493827024]
ガウスデータによる線形回帰に対するスパース補間手順の過大なリスクの低い境界を証明した。
ここでは, 騒音の適応による害は, 様々な方向に拡げることによって改善されるが, この分析は「群衆の知恵」の利点を露呈する。
論文 参考訳(メタデータ) (2021-10-06T16:56:37Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。