論文の概要: AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to
Improve Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2212.10405v1
- Date: Tue, 20 Dec 2022 16:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:41:09.333293
- Title: AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to
Improve Hate Speech Detection
- Title(参考訳): AnnoBERT:複数アノテータのラベル選択を効果的に表現してヘイト音声検出を改善する
- Authors: Wenjie Yin, Vibhor Agarwal, Aiqi Jiang, Arkaitz Zubiaga, Nishanth
Sastry
- Abstract要約: AnnoBERTは、アノテータの特徴とラベルテキストを統合してヘイトスピーチを検出する最初のアーキテクチャである。
トレーニング中、モデルはアノテータとラベルの選択をテキストの一部に関連付ける。
評価中、ラベル情報が得られない場合、モデルは、参加アノテータによって与えられる集約されたラベルを予測する。
- 参考スコア(独自算出の注目度): 18.823219608659986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised approaches generally rely on majority-based labels. However, it is
hard to achieve high agreement among annotators in subjective tasks such as
hate speech detection. Existing neural network models principally regard labels
as categorical variables, while ignoring the semantic information in diverse
label texts. In this paper, we propose AnnoBERT, a first-of-its-kind
architecture integrating annotator characteristics and label text with a
transformer-based model to detect hate speech, with unique representations
based on each annotator's characteristics via Collaborative Topic Regression
(CTR) and integrate label text to enrich textual representations. During
training, the model associates annotators with their label choices given a
piece of text; during evaluation, when label information is not available, the
model predicts the aggregated label given by the participating annotators by
utilising the learnt association. The proposed approach displayed an advantage
in detecting hate speech, especially in the minority class and edge cases with
annotator disagreement. Improvement in the overall performance is the largest
when the dataset is more label-imbalanced, suggesting its practical value in
identifying real-world hate speech, as the volume of hate speech in-the-wild is
extremely small on social media, when compared with normal (non-hate) speech.
Through ablation studies, we show the relative contributions of annotator
embeddings and label text to the model performance, and tested a range of
alternative annotator embeddings and label text combinations.
- Abstract(参考訳): 監督されたアプローチは一般的に多数派に基づくラベルに依存している。
しかし,ヘイトスピーチ検出などの主観的タスクにおいて,アノテータ間の高い合意を達成することは困難である。
既存のニューラルネットワークモデルは、ラベルを分類変数とみなし、多様なラベルテキストのセマンティック情報を無視する。
本稿では,アノテータの特徴とラベルテキストを変換器ベースモデルで統合し,各アノテータの特徴をCTR (Collaborative Topic Regression) を用いて一意に表現し,ラベルテキストを統合してテキスト表現を豊かにするAnnoBERTを提案する。
トレーニング中、モデルは、アノテータにテキストを付与したラベル選択を関連付け、評価中、ラベル情報が入手できないとき、学習者アノテータによる集約されたラベルを学習者アソシエーションを利用して予測する。
提案手法はヘイトスピーチの検出に優位性を示し,特にアノテータ不一致の少数層とエッジ症例で有効であった。
全体パフォーマンスの改善は、データセットがラベルの不均衡度が高い場合に最大であり、現実のヘイトスピーチを識別する実践的価値を示唆している。
アブレーション研究を通じて,アノテータ組込みとラベル付きテキストのモデル性能への相対的寄与を示し,代替アノテータ組込みとラベル付きテキストの組み合わせをテストした。
関連論文リスト
- Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - Leveraging Annotator Disagreement for Text Classification [3.6625157427847963]
テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T06:46:53Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - LanSER: Language-Model Supported Speech Emotion Recognition [25.597250907836152]
本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。
分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。
実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
論文 参考訳(メタデータ) (2023-09-07T19:21:08Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。