論文の概要: Bandits with Abstention under Expert Advice
- arxiv url: http://arxiv.org/abs/2402.14585v2
- Date: Tue, 12 Nov 2024 14:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:45.940009
- Title: Bandits with Abstention under Expert Advice
- Title(参考訳): 専門家アドバイザによる留置バンド
- Authors: Stephen Pasteris, Alberto Rumi, Maximilian Thiessen, Shota Saito, Atsushi Miyauchi, Fabio Vitale, Mark Herbster,
- Abstract要約: 本稿では,包括的フィードバック下でのエキスパートアドバイスによる予測の古典的問題について検討する。
本稿では,この仮定を利用して報酬境界を求めるCBAアルゴリズムを提案する。
我々は、一般的な信頼度の高い予測者に対して期待される累積報酬の限界を達成した最初の人物である。
- 参考スコア(独自算出の注目度): 17.7637383442147
- License:
- Abstract: We study the classic problem of prediction with expert advice under bandit feedback. Our model assumes that one action, corresponding to the learner's abstention from play, has no reward or loss on every trial. We propose the CBA algorithm, which exploits this assumption to obtain reward bounds that can significantly improve those of the classical Exp4 algorithm. We can view our problem as the aggregation of confidence-rated predictors when the learner has the option of abstention from play. Importantly, we are the first to achieve bounds on the expected cumulative reward for general confidence-rated predictors. In the special case of specialists we achieve a novel reward bound, significantly improving previous bounds of SpecialistExp (treating abstention as another action). As an example application, we discuss learning unions of balls in a finite metric space. In this contextual setting, we devise an efficient implementation of CBA, reducing the runtime from quadratic to almost linear in the number of contexts. Preliminary experiments show that CBA improves over existing bandit algorithms.
- Abstract(参考訳): 本稿では,包括的フィードバック下でのエキスパートアドバイスによる予測の古典的問題について検討する。
本モデルでは,学習者の遊びの断念に対応する1つの行動が,すべての試験において報酬や損失を伴わないと仮定する。
我々は,この仮定を利用して古典的Exp4アルゴリズムの精度を大幅に向上できる報酬境界を求めるCBAアルゴリズムを提案する。
学習者が遊びを控える選択肢がある場合、我々の問題を信頼度の高い予測者の集合と見なすことができる。
重要なことに、我々は一般の信頼度の高い予測者に対して期待される累積報酬の限界を達成した最初の人物である。
専門職の特別の場合において、我々は新たな報酬バウンドを達成し、以前の専門職Expの限界を著しく改善する(別の行動として棄権を処理する)。
例として、有限距離空間における球の学習ユニオンについて議論する。
このコンテキスト設定では、CBAの効率的な実装を考案し、コンテキストの数でランタイムを2次からほぼ線形に減らした。
予備実験では、CBAは既存のバンディットアルゴリズムよりも改善されている。
関連論文リスト
- Reward Learning as Doubly Nonparametric Bandits: Optimal Design and
Scaling Laws [22.099915149343957]
本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
論文 参考訳(メタデータ) (2023-02-23T22:07:33Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Break your Bandit Routine with LSD Rewards: a Last Switch Dependent
Analysis of Satiation and Seasonality [6.146046338698175]
そこで本研究では,腕が最後に動作を切り替えて以降の時間経過によって,腕の期待される報酬が完全に決定される,新たな非定常バンディット問題を導入する。
我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。
我々はアルゴリズムを証明し、最適な非定常ポリシーに関してその後悔を証明した。
論文 参考訳(メタデータ) (2021-10-22T14:53:13Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of
Information Selection [0.0]
CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。
本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。
本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-08T13:32:14Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。