Fugu-MT 論文翻訳(概要): Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits

論文の概要: Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits

arxiv url: http://arxiv.org/abs/2110.09133v1
Date: Mon, 18 Oct 2021 09:36:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 17:50:24.606736
Title: Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits
Title（参考訳）: オンラインサイン識別:しきい値帯における誤り回数の最小化
Authors: Reda Ouhamma, R\'emy Degenne, Pierre Gaillard, Vianney Perchet
Abstract要約: 我々はFrank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群を紹介する。我々は幅広い問題に対して新しい明示的アルゴリズムを構築した。我々はこの現象を洞察に富んだおもちゃの問題で説明する。
参考スコア（独自算出の注目度）: 27.09804256642197
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In the fixed budget thresholding bandit problem, an algorithm sequentially allocates a budgeted number of samples to different distributions. It then predicts whether the mean of each distribution is larger or lower than a given threshold. We introduce a large family of algorithms (containing most existing relevant ones), inspired by the Frank-Wolfe algorithm, and provide a thorough yet generic analysis of their performance. This allowed us to construct new explicit algorithms, for a broad class of problems, whose losses are within a small constant factor of the non-adaptive oracle ones. Quite interestingly, we observed that adaptive methods empirically greatly out-perform non-adaptive oracles, an uncommon behavior in standard online learning settings, such as regret minimization. We explain this surprising phenomenon on an insightful toy problem.
Abstract（参考訳）: 固定予算しきい値バンディット問題において、アルゴリズムは予算化されたサンプル数を異なる分布に順次割り当てる。そして、各分布の平均が与えられた閾値よりも大きいか低いかを予測する。本稿では,Frank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群(既存のアルゴリズム群を含む)を導入し,その性能を網羅的かつ総合的に分析する。これにより、幅広い種類の問題に対して新しい明示的アルゴリズムを構築することができ、その損失は非適応的なオラクルの小さな定数要素の範囲内である。興味深いことに、私たちは、アダプティブメソッドが経験上、非適応オラクルよりも大幅に優れており、後悔の最小化のような標準的なオンライン学習設定では珍しい行動であると観察しました。私たちはこの驚くべき現象を洞察に富んだおもちゃの問題に説明します。

関連論文リスト

A Polynomial-time Algorithm for Online Sparse Linear Regression with Improved Regret Bound under Weaker Conditions [75.69959433669244]
オンラインスパース線形回帰(OSLR)では,予測のために1インスタンスあたり$d$あたり$k$しかアクセスできない。提案手法では, 過去の後悔点を大幅に改善する拡張時間アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-10-31T05:02:33Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文参考訳（メタデータ） (2024-10-22T10:19:27Z)
Asymmetric Graph Error Control with Low Complexity in Causal Bandits [21.812120023339876]
因果トポロジーも介入の分布も不明である。新しい不確実性境界は、報酬を最適化するために高信頼な境界ベースの介入選択を駆動する。提案手法は,100以上のランダムに生成した因果包帯を用いて,因果構造の学習に要するサンプルを著しく少なくする。
論文参考訳（メタデータ） (2024-08-20T23:37:08Z)
Semi-Bandit Learning for Monotone Stochastic Optimization [16.921694787482213]
一般的なオンライン学習アルゴリズムは「モノトーン」問題のクラスのために開発されている。当社のフレームワークは,預言不平等やPandoraのボックス,単一リソースの収益管理,ポスト価格など,いくつかの基本的な問題に適用しています。
論文参考訳（メタデータ） (2023-12-24T07:46:37Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文参考訳（メタデータ） (2023-03-15T21:30:14Z)
Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文参考訳（メタデータ） (2022-11-14T12:32:18Z)
Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文参考訳（メタデータ） (2022-02-03T08:45:34Z)
Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。 SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文参考訳（メタデータ） (2021-09-13T18:10:52Z)
Efficient First-Order Contextual Bandits: Prediction, Allocation, and Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。 1次保証は統計的およびオンライン学習において比較的よく理解されている。三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文参考訳（メタデータ） (2021-07-05T19:20:34Z)
Improved Algorithms for Agnostic Pool-based Active Classification [20.12178157010804]
プールに依存しない環境でのバイナリ分類のためのアクティブラーニングを検討する。我々のアルゴリズムは、画像分類データセットにおけるアートアクティブな学習アルゴリズムの状況よりも優れている。
論文参考訳（メタデータ） (2021-05-13T18:24:30Z)
Nonparametric adaptive active learning under local smoothness condition [0.76146285961466]
本稿では,最小仮定の非パラメトリック環境における適応型アクティブラーニングの問題に対処する。従来知られていたアルゴリズムよりも,より一般的な仮定の下で有効な新しいアルゴリズムを提案する。我々のアルゴリズムは最小収束率を達成し、最もよく知られた非適応アルゴリズムと同等に機能する。
論文参考訳（メタデータ） (2021-02-22T14:47:21Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。