論文の概要: Leveraging Annotator Disagreement for Text Classification
- arxiv url: http://arxiv.org/abs/2409.17577v1
- Date: Thu, 26 Sep 2024 06:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 22:46:14.717415
- Title: Leveraging Annotator Disagreement for Text Classification
- Title(参考訳): テキスト分類におけるアノテーションの活用
- Authors: Jin Xu, Mariët Theune, Daniel Braun,
- Abstract要約: テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
- 参考スコア(独自算出の注目度): 3.6625157427847963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is common practice in text classification to only use one majority label for model training even if a dataset has been annotated by multiple annotators. Doing so can remove valuable nuances and diverse perspectives inherent in the annotators' assessments. This paper proposes and compares three different strategies to leverage annotator disagreement for text classification: a probability-based multi-label method, an ensemble system, and instruction tuning. All three approaches are evaluated on the tasks of hate speech and abusive conversation detection, which inherently entail a high degree of subjectivity. Moreover, to evaluate the effectiveness of embracing annotation disagreements for model training, we conduct an online survey that compares the performance of the multi-label model against a baseline model, which is trained with the majority label. The results show that in hate speech detection, the multi-label method outperforms the other two approaches, while in abusive conversation detection, instruction tuning achieves the best performance. The results of the survey also show that the outputs from the multi-label models are considered a better representation of the texts than the single-label model.
- Abstract(参考訳): テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
そうすることで、アノテータのアセスメントに固有の貴重なニュアンスや多様な視点を排除できる。
本稿では,アノテータの不一致を利用したテキスト分類手法として,確率ベースマルチラベル法,アンサンブルシステム,命令チューニングの3つの戦略を提案し,比較する。
これら3つのアプローチは、ヘイトスピーチと虐待的会話検出のタスクに基づいて評価される。
さらに, モデル学習におけるアノテーションの不一致を受け入れることの有効性を評価するために, 複数ラベルモデルの性能を, 多数ラベルで学習したベースラインモデルと比較するオンライン調査を行った。
その結果、ヘイトスピーチ検出では、マルチラベル法が他の2つの手法より優れており、乱雑な会話検出では、命令チューニングが最高のパフォーマンスを達成していることがわかった。
また,本調査の結果から,複数ラベルモデルからの出力は単一ラベルモデルよりもテキストの表現性がよいと考えられた。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to
Improve Hate Speech Detection [18.823219608659986]
AnnoBERTは、アノテータの特徴とラベルテキストを統合してヘイトスピーチを検出する最初のアーキテクチャである。
トレーニング中、モデルはアノテータとラベルの選択をテキストの一部に関連付ける。
評価中、ラベル情報が得られない場合、モデルは、参加アノテータによって与えられる集約されたラベルを予測する。
論文 参考訳(メタデータ) (2022-12-20T16:30:11Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Are We Really Making Much Progress in Text Classification? A Comparative
Review [2.579878570919875]
本研究では,単一ラベルと複数ラベルのテキスト分類のための手法をレビューし,比較する。
その結果、最近提案されたグラフベースおよび階層ベースの手法は、事前学習された言語モデルよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-04-08T09:28:20Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Not All Negatives are Equal: Label-Aware Contrastive Loss for
Fine-grained Text Classification [0.0]
2つの細粒度テキスト分類タスクにおいて、事前訓練された言語モデルの対照的な微調整を解析する。
クラス関係を比較対象関数に適応的に組み込んで、正と負の異なる評価を支援する。
ラベルを意識したContrastive Lossは,従来のコントラスト手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-12T04:19:17Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。