論文の概要: Trading-Off Payments and Accuracy in Online Classification with Paid
Stochastic Experts
- arxiv url: http://arxiv.org/abs/2307.00836v1
- Date: Mon, 3 Jul 2023 08:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:58:11.982182
- Title: Trading-Off Payments and Accuracy in Online Classification with Paid
Stochastic Experts
- Title(参考訳): 有給確率専門家によるオンライン分類におけるトレーディングオフ支払いと精度
- Authors: Dirk van der Hoeven, Ciara Pike-Burke, Hao Qiu, Nicolo Cesa-Bianchi
- Abstract要約: 有償専門家によるオンライン分類について検討する。
各ラウンドでは、学習者は専門家にいくら払うかを決め、予測しなければなりません。
本稿では,T$ラウンド後の総費用が予測値を上回るオンライン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.891975420982513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate online classification with paid stochastic experts. Here,
before making their prediction, each expert must be paid. The amount that we
pay each expert directly influences the accuracy of their prediction through
some unknown Lipschitz "productivity" function. In each round, the learner must
decide how much to pay each expert and then make a prediction. They incur a
cost equal to a weighted sum of the prediction error and upfront payments for
all experts. We introduce an online learning algorithm whose total cost after
$T$ rounds exceeds that of a predictor which knows the productivity of all
experts in advance by at most $\mathcal{O}(K^2(\log T)\sqrt{T})$ where $K$ is
the number of experts. In order to achieve this result, we combine Lipschitz
bandits and online classification with surrogate losses. These tools allow us
to improve upon the bound of order $T^{2/3}$ one would obtain in the standard
Lipschitz bandit setting. Our algorithm is empirically evaluated on synthetic
data
- Abstract(参考訳): 有給確率専門家によるオンライン分類について検討する。
ここでは、予測を行う前に、各専門家に報酬を支払わなければならない。
専門家に支払う金額は、未知のリプシッツの「生産性」関数を通して予測の精度に直接影響を与える。
各ラウンドでは、学習者は専門家にいくら払うかを決め、予測しなければなりません。
それらは、すべての専門家に対する予測エラーと前払いの重み付けの合計と同等のコストを負う。
我々は, オンライン学習アルゴリズムを導入し, ラウンド後の総費用が, 有能な専門家全員の生産性を, 最大$$\mathcal{O}(K^2(\log T)\sqrt{T})$で事前に把握している予測器のコストを超えるようにした。
この結果を達成するために,リプシッツ・バンディットとオンライン分類とサロゲート損失を組み合わせる。
これらのツールは、標準のリプシッツ・バンディット設定で得られる$t^{2/3}$の上限を改善することができます。
我々のアルゴリズムは 合成データで実証的に評価され
関連論文リスト
- Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - No-Regret Online Prediction with Strategic Experts [16.54912614895861]
オンラインバイナリ予測の一般化をエキスパートアドバイスフレームワークを用いて研究し、各ラウンドで、学習者は、Kドルの専門家のプールからmgeq 1ドルの専門家を選ぶことができる。
我々は、専門家が戦略的に行動し、彼らの信念を誤報することでアルゴリズムの予測への影響を最大化することを目的とした設定に焦点を当てる。
目標は,次の2つの要件を満たすアルゴリズムを設計することです。 1) $textitIncentive-compatible$: 専門家に信念を真実に報告させるインセンティブ,2) $textitNo-regret$: Achieve。
論文 参考訳(メタデータ) (2023-05-24T16:43:21Z) - Streaming Algorithms for Learning with Experts: Deterministic Versus
Robust [62.98860182111096]
エキスパート問題を伴うオンライン学習では、アルゴリズムは、T$day(または時間)ごとに結果を予測する必要がある。
目標は最小限のコストで予測を行うことだ。
最良専門家が$M$の誤りを犯したとき、後悔する$R$を達成するような決定論的アルゴリズムに対して、$widetildeOmegaleft(fracnMRTright)$の空間下界を示す。
論文 参考訳(メタデータ) (2023-03-03T04:39:53Z) - Constant regret for sequence prediction with limited advice [0.0]
予測とm$ge$2の専門家の損失を観測するために,p = 2の専門家のみを1ラウンド毎に組み合わせた戦略を提供する。
学習者が1ラウンドにつき1人の専門家のフィードバックのみを観察することを制約されている場合、最悪の場合の後悔は"スローレート"$Omega$($sqrt$KT)である。
論文 参考訳(メタデータ) (2022-10-05T13:32:49Z) - Memory Bounds for the Experts Problem [53.67419690563877]
専門家のアドバイスによるオンライン学習は、逐次予測の根本的な問題である。
目標は、予測を処理し、最小コストで予測を行うことです。
アルゴリズムは、そのセットでもっとも優れた専門家と比較してどれだけうまく機能するかによって判断される。
論文 参考訳(メタデータ) (2022-04-21T01:22:18Z) - Malicious Experts versus the multiplicative weights algorithm in online
prediction [85.62472761361107]
2人の専門家と1人の予測者による予測問題を考える。
専門家の一人が正直で、各ラウンドで確率$mu$で正しい予測をしていると仮定する。
もう一つは悪意のあるもので、各ラウンドで真の結果を知り、予測者の損失を最大化するために予測を行う。
論文 参考訳(メタデータ) (2020-03-18T20:12:08Z) - Toward Optimal Adversarial Policies in the Multiplicative Learning
System with a Malicious Expert [87.12201611818698]
専門家のアドバイスを組み合わせて真の結果を予測する学習システムについて考察する。
専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。
誤予測を常に報告する単純な欲求ポリシーは、近似比が1+O(sqrtfracln NN)$で最適であることを示す。
悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N3)$で動的プログラムを解くことで効率的に計算できることが示される。
論文 参考訳(メタデータ) (2020-01-02T18:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。