論文の概要: Noise tolerance of learning to rank under class-conditional label noise
- arxiv url: http://arxiv.org/abs/2208.02126v1
- Date: Wed, 3 Aug 2022 15:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:16:00.846812
- Title: Noise tolerance of learning to rank under class-conditional label noise
- Title(参考訳): クラス条件ラベル雑音下での学習における耐雑音性
- Authors: Dany Haddad
- Abstract要約: 経験的リスク最小化が一貫した手順である耐雑音性LtR損失のクラスについて述べる。
また、一般的に使われている損失関数の耐雑音性アナログも開発する。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Often, the data used to train ranking models is subject to label noise. For
example, in web-search, labels created from clickstream data are noisy due to
issues such as insufficient information in item descriptions on the SERP, query
reformulation by the user, and erratic or unexpected user behavior. In
practice, it is difficult to handle label noise without making strong
assumptions about the label generation process. As a result, practitioners
typically train their learning-to-rank (LtR) models directly on this noisy data
without additional consideration of the label noise. Surprisingly, we often see
strong performance from LtR models trained in this way. In this work, we
describe a class of noise-tolerant LtR losses for which empirical risk
minimization is a consistent procedure, even in the context of
class-conditional label noise. We also develop noise-tolerant analogs of
commonly used loss functions. The practical implications of our theoretical
findings are further supported by experimental results.
- Abstract(参考訳): ランキングモデルのトレーニングに使用されるデータは、しばしばラベルノイズを受ける。
例えば、Web検索では、SERPの項目記述の不十分な情報、ユーザによるクエリの改定、不規則または予期せぬユーザ行動などの問題により、クリックストリームデータから生成されたラベルがうるさい。
実際にラベル生成プロセスについて強い仮定をすることなくラベルノイズを扱うことは困難である。
結果として、実践者は通常、ラベルノイズを考慮せずに、このノイズデータに直接学習・ランク(ltr)モデルをトレーニングする。
驚くべきことに、この方法でトレーニングされたLtRモデルの強力なパフォーマンスがよく見られます。
本稿では, クラス条件ラベルノイズの文脈においても, 経験的リスク最小化が一貫した手順である, 雑音耐性ltr損失のクラスについて述べる。
また,一般に使用される損失関数のノイズ耐性アナログを開発した。
本研究の実際的意義は,実験結果によってさらに裏付けられている。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Federated Learning with Extremely Noisy Clients via Negative
Distillation [70.13920804879312]
フェデレーテッド・ラーニング (FL) は, ノイズラベルに悩まされながら, ディープモデルの協調訓練において顕著な成功を収めた。
ノイズの多いクライアントで訓練されたモデルを活用するために, 負蒸留(FedNed)と呼ばれる新しい手法を提案する。
FedNedはまずノイズの多いクライアントを特定し、知識蒸留方式でノイズの多いクライアントを捨てるのではなく採用する。
論文 参考訳(メタデータ) (2023-12-20T01:59:48Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification [23.554544399110508]
トレーニングデータの誤りラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズハンドリング技術は、モデルがこのラベルノイズに収まらないようにする必要があることが示されている。
BERTのような現代のNLPモデルを用いたテキスト分類タスクにおいて、様々なノイズタイプに対して、既存のノイズハンドリング手法は必ずしも性能を向上せず、さらに劣化する可能性があることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:24:19Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - Analysing the Noise Model Error for Realistic Noisy Label Data [14.766574408868806]
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
論文 参考訳(メタデータ) (2021-01-24T17:45:15Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。