論文の概要: Understanding and Tackling Label Errors in Individual-Level Nature Language Understanding
- arxiv url: http://arxiv.org/abs/2502.13297v1
- Date: Tue, 18 Feb 2025 21:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:39.710366
- Title: Understanding and Tackling Label Errors in Individual-Level Nature Language Understanding
- Title(参考訳): 個別レベル自然言語理解におけるラベル誤りの理解と対処
- Authors: Yunpeng Xiao, Youpeng Zhao, Kai Shu,
- Abstract要約: 個人レベル要素に基づく新しいNLUアノテーションガイドラインを提案する。
このガイドラインを用いて、スタンス検出とトピックベースの感情分析データセットを拡張し、再注釈する。
試料中の誤差率は31.7%と23.3%であった。
- 参考スコア(独自算出の注目度): 20.544691668254416
- License:
- Abstract: Natural language understanding (NLU) is a task that enables machines to understand human language. Some tasks, such as stance detection and sentiment analysis, are closely related to individual subjective perspectives, thus termed individual-level NLU. Previously, these tasks are often simplified to text-level NLU tasks, ignoring individual factors. This not only makes inference difficult and unexplainable but often results in a large number of label errors when creating datasets. To address the above limitations, we propose a new NLU annotation guideline based on individual-level factors. Specifically, we incorporate other posts by the same individual and then annotate individual subjective perspectives after considering all individual posts. We use this guideline to expand and re-annotate the stance detection and topic-based sentiment analysis datasets. We find that error rates in the samples were as high as 31.7\% and 23.3\%. We further use large language models to conduct experiments on the re-annotation datasets and find that the large language models perform well on both datasets after adding individual factors. Both GPT-4o and Llama3-70B can achieve an accuracy greater than 87\% on the re-annotation datasets. We also verify the effectiveness of individual factors through ablation studies. We call on future researchers to add individual factors when creating such datasets. Our re-annotation dataset can be found at https://github.com/24yearsoldstudent/Individual-NLU
- Abstract(参考訳): 自然言語理解(NLU)は、機械が人間の言語を理解できるようにするタスクである。
姿勢検出や感情分析などのタスクは、個別の主観的視点と密接に関連しているため、個別レベルのNLUと呼ばれる。
以前は、これらのタスクはテキストレベルのNLUタスクに単純化され、個々の要素を無視していた。
これは推論を難しく、説明不能にするだけでなく、データセットを作成する際に大量のラベルエラーが発生する。
上記の制約に対処するため,個別の要素に基づく新たなNLUアノテーションガイドラインを提案する。
具体的には、他のポストを同一個人に組み込んだ上で、個別の投稿を考慮し、個別の主観的視点を注釈付けする。
このガイドラインを用いて、スタンス検出とトピックベースの感情分析データセットを拡張し、再注釈する。
試料中の誤差率は31.7\%と23.3\%であった。
さらに、大規模な言語モデルを用いて、再アノテーションデータセットの実験を行い、個々の要素を加えて、大きな言語モデルが両方のデータセットでうまく機能していることを見出した。
GPT-4oとLlama3-70Bはどちらも、再アノテーションデータセット上で87\%以上の精度を達成することができる。
また、アブレーション研究により、個々の因子の有効性を検証する。
このようなデータセットを作成する際に、個々の要素を追加するよう将来の研究者に呼びかけます。
我々の再アノテーションデータセットはhttps://github.com/24yearsoldstudent/Individual-NLUで見ることができる。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - PersonalSum: A User-Subjective Guided Personalized Summarization Dataset for Large Language Models [3.516029765200171]
我々はPersonalSumと呼ばれる高品質でパーソナライズされた手作業による要約データセットを提案する。
このデータセットは、公開読者の焦点が、大規模言語モデルによって生成された一般的な要約と異なるかどうかを調査する最初のものである。
論文 参考訳(メタデータ) (2024-10-04T20:12:39Z) - Designing NLP Systems That Adapt to Diverse Worldviews [4.915541242112533]
既存のNLPデータセットは、ラベルを集約したり、不一致をフィルタリングすることで、これを曖昧にすることが多い、と私たちは主張する。
我々は、アノテータの人口統計、値、ラベルの正当化をキャプチャするデータセットを構築するという、パースペクティブなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-18T06:48:09Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Quda: Natural Language Queries for Visual Data Analytics [33.983060903399554]
我々は、V-NLIが自由形式の自然言語から解析タスクを認識するのを支援するために、Qudaと呼ばれる新しいデータセットを提案する。
私たちのデータセットには14,035ドルの多様なユーザクエリが含まれており、それぞれに1つまたは複数の分析タスクがアノテートされている。
この研究は、解析的タスクを認識するための大規模コーパスを構築する最初の試みである。
論文 参考訳(メタデータ) (2020-05-07T05:35:16Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。