論文の概要: Learning Multiclass Classifier Under Noisy Bandit Feedback
- arxiv url: http://arxiv.org/abs/2006.03545v2
- Date: Wed, 3 Mar 2021 16:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:59:53.780388
- Title: Learning Multiclass Classifier Under Noisy Bandit Feedback
- Title(参考訳): 雑音帯域フィードバックによるマルチクラス分類器の学習
- Authors: Mudit Agarwal and Naresh Manwani
- Abstract要約: 本研究では,非バイアス推定手法に基づく雑音の多い帯域フィードバックに対処する新しい手法を提案する。
いくつかのベンチマークデータセットに対する広範な実験により,提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 6.624726878647541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of multiclass classification with corrupted
or noisy bandit feedback. In this setting, the learner may not receive true
feedback. Instead, it receives feedback that has been flipped with some
non-zero probability. We propose a novel approach to deal with noisy bandit
feedback based on the unbiased estimator technique. We further offer a method
that can efficiently estimate the noise rates, thus providing an end-to-end
framework. The proposed algorithm enjoys a mistake bound of the order of
$O(\sqrt{T})$ in the high noise case and of the order of
$O(T^{\nicefrac{2}{3}})$ in the worst case. We show our approach's
effectiveness using extensive experiments on several benchmark datasets.
- Abstract(参考訳): 本稿では,バンドイットフィードバックの劣化を伴うマルチクラス分類の問題について述べる。
この設定では、学習者は真のフィードバックを受けられない。
代わりに、ゼロでない確率で反転したフィードバックを受け取る。
本研究では,非バイアス推定手法に基づく雑音の多い帯域フィードバックに対処する新しい手法を提案する。
さらに,ノイズ率を効率的に推定できる手法を提供し,エンドツーエンドの枠組みを提供する。
提案アルゴリズムは,高ノイズの場合の$o(\sqrt{t})$,最悪の場合では$o(t^{\nicefrac{2}{3}})$という順序の誤りを享受する。
いくつかのベンチマークデータセットで広範な実験を行い,提案手法の有効性を示す。
関連論文リスト
- Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Certified Adversarial Robustness Within Multiple Perturbation Bounds [38.3813286696956]
ランダムスムーシング(Randomized smoothing、RS)は、敵の攻撃に対するよく知られた防御である。
本研究では,複数の摂動境界に対して同時に認証された対向ロバスト性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-04-20T16:42:44Z) - RoLNiP: Robust Learning Using Noisy Pairwise Comparisons [6.624726878647541]
本稿では,ノイズの多いペアワイズ比較から学習するための頑健なアプローチを提案する。
提案手法は,雑音に富んだペアワイド比較による学習において,頑健な最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-04T06:28:08Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits
with Super Heavy-Tailed Payoffs [27.636407641546914]
実験的な中央値列の経験的平均を計算し,確率変数を推定する,新しい頑健な統計推定器を提案する。
非常に重みのある雑音であっても, 後悔の限界がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-10-26T17:30:44Z) - Multiclass Classification using dilute bandit feedback [8.452237741722726]
希薄帯域フィードバック(MC-DBF)を用いたマルチクラス分類アルゴリズムを提案する。
提案アルゴリズムは,候補ラベルセットのサイズ(各ステップ)が m であれば,O(T1-frac1m+2) の誤差を達成できることを示す。
論文 参考訳(メタデータ) (2021-05-17T18:05:34Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。