論文の概要: Training Dynamic based data filtering may not work for NLP datasets
- arxiv url: http://arxiv.org/abs/2109.09191v1
- Date: Sun, 19 Sep 2021 18:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:56:05.788784
- Title: Training Dynamic based data filtering may not work for NLP datasets
- Title(参考訳): 動的データフィルタリングによるNLPデータセットのトレーニング
- Authors: Arka Talukdar, Monika Dagar, Prachi Gupta, Varun Menon
- Abstract要約: NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent increase in dataset size has brought about significant advances in
natural language understanding. These large datasets are usually collected
through automation (search engines or web crawlers) or crowdsourcing which
inherently introduces incorrectly labeled data. Training on these datasets
leads to memorization and poor generalization. Thus, it is pertinent to develop
techniques that help in the identification and isolation of mislabelled data.
In this paper, we study the applicability of the Area Under the Margin (AUM)
metric to identify and remove/rectify mislabelled examples in NLP datasets. We
find that mislabelled samples can be filtered using the AUM metric in NLP
datasets but it also removes a significant number of correctly labeled points
and leads to the loss of a large amount of relevant language information. We
show that models rely on the distributional information instead of relying on
syntactic and semantic representations.
- Abstract(参考訳): 最近のデータセットサイズの増加は、自然言語理解に大きな進歩をもたらした。
これらの大きなデータセットは通常、自動化(検索エンジンやWebクローラ)やクラウドソーシングを通じて収集される。
これらのデータセットのトレーニングは記憶と一般化の欠如につながる。
したがって、誤認されたデータの識別と隔離を支援する技術を開発することが重要となる。
本稿では,NLPデータセットにおける誤りのある例を識別・削除するためのAUM(Area Under the Margin)メトリクスの適用性について検討する。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを見出した。また,かなりの数の正確なラベル付きポイントを除去し,大量の関連言語情報を失うことにつながる。
モデルが構文表現や意味表現に頼るのではなく,分布情報に依存することを示す。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Semi-Supervised Variational Adversarial Active Learning via Learning to Rank and Agreement-Based Pseudo Labeling [6.771578432805963]
アクティブラーニングは、ラベルなしサンプルの選択を自動化することで、データラベリングに関わる労力を軽減することを目的としている。
トレーニング中に大量のラベルのないデータの使用を大幅に改善する新しい手法を導入する。
様々な画像分類およびセグメンテーションベンチマークデータセットにおける技術状況に対するアプローチの優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-23T00:35:07Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。
大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。
CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T21:49:10Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。