Fugu-MT 論文翻訳(概要): Learning Multiclass Classifier Under Noisy Bandit Feedback

論文の概要: Learning Multiclass Classifier Under Noisy Bandit Feedback

arxiv url: http://arxiv.org/abs/2006.03545v2
Date: Wed, 3 Mar 2021 16:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 02:59:53.780388
Title: Learning Multiclass Classifier Under Noisy Bandit Feedback
Title（参考訳）: 雑音帯域フィードバックによるマルチクラス分類器の学習
Authors: Mudit Agarwal and Naresh Manwani
Abstract要約: 本研究では,非バイアス推定手法に基づく雑音の多い帯域フィードバックに対処する新しい手法を提案する。いくつかのベンチマークデータセットに対する広範な実験により,提案手法の有効性を示す。
参考スコア（独自算出の注目度）: 6.624726878647541
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the problem of multiclass classification with corrupted or noisy bandit feedback. In this setting, the learner may not receive true feedback. Instead, it receives feedback that has been flipped with some non-zero probability. We propose a novel approach to deal with noisy bandit feedback based on the unbiased estimator technique. We further offer a method that can efficiently estimate the noise rates, thus providing an end-to-end framework. The proposed algorithm enjoys a mistake bound of the order of $O(\sqrt{T})$ in the high noise case and of the order of $O(T^{\nicefrac{2}{3}})$ in the worst case. We show our approach's effectiveness using extensive experiments on several benchmark datasets.
Abstract（参考訳）: 本稿では,バンドイットフィードバックの劣化を伴うマルチクラス分類の問題について述べる。この設定では、学習者は真のフィードバックを受けられない。代わりに、ゼロでない確率で反転したフィードバックを受け取る。本研究では,非バイアス推定手法に基づく雑音の多い帯域フィードバックに対処する新しい手法を提案する。さらに,ノイズ率を効率的に推定できる手法を提供し,エンドツーエンドの枠組みを提供する。提案アルゴリズムは,高ノイズの場合の$o(\sqrt{t})$,最悪の場合では$o(t^{\nicefrac{2}{3}})$という順序の誤りを享受する。いくつかのベンチマークデータセットで広範な実験を行い,提案手法の有効性を示す。

関連論文リスト

Is nasty noise actually harder than malicious noise? [5.887031992513966]
本稿では,雑音の存在下での学習において,計算効率の高いアルゴリズムの相対的能力と限界について考察する。分布非依存学習では、2つのノイズモデルの間に強い等価性を示す。これらのアルゴリズムでは、悪質なノイズと悪質なノイズは、ノイズ率の最大2倍に等しいことを示す。
論文参考訳（メタデータ） (2025-11-12T21:56:15Z)
Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文参考訳（メタデータ） (2024-12-14T12:58:15Z)
Trusted Multi-view Learning with Label Noise [17.458306450909316]
マルチビュー学習手法は、意思決定の不確実性を無視しながら、意思決定精度の向上に焦点を当てることが多い。本稿では,この問題を解決するため,信頼度の高いマルチビューノイズ修正手法を提案する。我々は,TMNRと最先端のマルチビュー学習,および5つの公開データセットに基づくラベルノイズ学習ベースラインを実証的に比較した。
論文参考訳（メタデータ） (2024-04-18T06:47:30Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。 NPCは検出モジュールと修正モジュールから構成される。我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文参考訳（メタデータ） (2023-11-07T08:27:14Z)
Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。ラベルノイズによる過度適合に対処する手法を提案する。本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文参考訳（メタデータ） (2023-07-24T19:41:19Z)
Certified Adversarial Robustness Within Multiple Perturbation Bounds [38.3813286696956]
ランダムスムーシング(Randomized smoothing、RS)は、敵の攻撃に対するよく知られた防御である。本研究では,複数の摂動境界に対して同時に認証された対向ロバスト性を改善することを目的としている。
論文参考訳（メタデータ） (2023-04-20T16:42:44Z)
RoLNiP: Robust Learning Using Noisy Pairwise Comparisons [6.624726878647541]
本稿では,ノイズの多いペアワイズ比較から学習するための頑健なアプローチを提案する。提案手法は,雑音に富んだペアワイド比較による学習において,頑健な最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-04T06:28:08Z)
UNICON: Combating Label Noise Through Uniform Selection and Contrastive Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。 90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文参考訳（メタデータ） (2022-03-28T07:36:36Z)
Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits with Super Heavy-Tailed Payoffs [27.636407641546914]
実験的な中央値列の経験的平均を計算し,確率変数を推定する,新しい頑健な統計推定器を提案する。非常に重みのある雑音であっても, 後悔の限界がほぼ最適であることを示す。
論文参考訳（メタデータ） (2021-10-26T17:30:44Z)
Multiclass Classification using dilute bandit feedback [8.452237741722726]
希薄帯域フィードバック(MC-DBF)を用いたマルチクラス分類アルゴリズムを提案する。提案アルゴリズムは,候補ラベルセットのサイズ(各ステップ)が m であれば,O(T1-frac1m+2) の誤差を達成できることを示す。
論文参考訳（メタデータ） (2021-05-17T18:05:34Z)
Learning Noise Transition Matrix from Only Noisy Labels via Total Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文参考訳（メタデータ） (2021-02-04T05:09:18Z)
Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users' Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文参考訳（メタデータ） (2020-09-16T07:32:51Z)
Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文参考訳（メタデータ） (2020-07-20T02:46:21Z)
Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文参考訳（メタデータ） (2020-02-19T15:41:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。