論文の概要: Online Sign Identification: Minimization of the Number of Errors in
Thresholding Bandits
- arxiv url: http://arxiv.org/abs/2110.09133v1
- Date: Mon, 18 Oct 2021 09:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 17:50:24.606736
- Title: Online Sign Identification: Minimization of the Number of Errors in
Thresholding Bandits
- Title(参考訳): オンラインサイン識別:しきい値帯における誤り回数の最小化
- Authors: Reda Ouhamma, R\'emy Degenne, Pierre Gaillard, Vianney Perchet
- Abstract要約: 我々はFrank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群を紹介する。
我々は幅広い問題に対して新しい明示的アルゴリズムを構築した。
我々はこの現象を洞察に富んだおもちゃの問題で説明する。
- 参考スコア(独自算出の注目度): 27.09804256642197
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the fixed budget thresholding bandit problem, an algorithm sequentially
allocates a budgeted number of samples to different distributions. It then
predicts whether the mean of each distribution is larger or lower than a given
threshold. We introduce a large family of algorithms (containing most existing
relevant ones), inspired by the Frank-Wolfe algorithm, and provide a thorough
yet generic analysis of their performance. This allowed us to construct new
explicit algorithms, for a broad class of problems, whose losses are within a
small constant factor of the non-adaptive oracle ones. Quite interestingly, we
observed that adaptive methods empirically greatly out-perform non-adaptive
oracles, an uncommon behavior in standard online learning settings, such as
regret minimization. We explain this surprising phenomenon on an insightful toy
problem.
- Abstract(参考訳): 固定予算しきい値バンディット問題において、アルゴリズムは予算化されたサンプル数を異なる分布に順次割り当てる。
そして、各分布の平均が与えられた閾値よりも大きいか低いかを予測する。
本稿では,Frank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群(既存のアルゴリズム群を含む)を導入し,その性能を網羅的かつ総合的に分析する。
これにより、幅広い種類の問題に対して新しい明示的アルゴリズムを構築することができ、その損失は非適応的なオラクルの小さな定数要素の範囲内である。
興味深いことに、私たちは、アダプティブメソッドが経験上、非適応オラクルよりも大幅に優れており、後悔の最小化のような標準的なオンライン学習設定では珍しい行動であると観察しました。
私たちはこの驚くべき現象を洞察に富んだおもちゃの問題に説明します。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Improved Algorithms for Agnostic Pool-based Active Classification [20.12178157010804]
プールに依存しない環境でのバイナリ分類のためのアクティブラーニングを検討する。
我々のアルゴリズムは、画像分類データセットにおけるアートアクティブな学習アルゴリズムの状況よりも優れている。
論文 参考訳(メタデータ) (2021-05-13T18:24:30Z) - Nonparametric adaptive active learning under local smoothness condition [0.76146285961466]
本稿では,最小仮定の非パラメトリック環境における適応型アクティブラーニングの問題に対処する。
従来知られていたアルゴリズムよりも,より一般的な仮定の下で有効な新しいアルゴリズムを提案する。
我々のアルゴリズムは最小収束率を達成し、最もよく知られた非適応アルゴリズムと同等に機能する。
論文 参考訳(メタデータ) (2021-02-22T14:47:21Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。