論文の概要: LLMs and Finetuning: Benchmarking cross-domain performance for hate
speech detection
- arxiv url: http://arxiv.org/abs/2310.18964v1
- Date: Sun, 29 Oct 2023 10:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:17:25.405101
- Title: LLMs and Finetuning: Benchmarking cross-domain performance for hate
speech detection
- Title(参考訳): LLMとファインタニング:ヘイトスピーチ検出のためのクロスドメイン性能のベンチマーク
- Authors: Ahmad Nasir, Aadish Sharma, Kokil Jaidka
- Abstract要約: 本稿では,ヘイトスピーチ検出のための事前学習型および微調整型大規模言語モデル(LLM)を比較した。
我々の研究は、LLMのクロスドメイン妥当性と過剰適合リスクの課題を浮き彫りにしている。
我々は、ドメイン間の一般化性を強調し、ヘイトスピーチ検出の未来に対するビジョンで締めくくる。
- 参考スコア(独自算出の注目度): 11.255011967393838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper compares different pre-trained and fine-tuned large language
models (LLMs) for hate speech detection. Our research underscores challenges in
LLMs' cross-domain validity and overfitting risks. Through evaluations, we
highlight the need for fine-tuned models that grasp the nuances of hate speech
through greater label heterogeneity. We conclude with a vision for the future
of hate speech detection, emphasizing cross-domain generalizability and
appropriate benchmarking practices.
- Abstract(参考訳): 本稿では,ヘイトスピーチ検出のための事前学習型および微調整型大規模言語モデル(LLM)を比較した。
我々の研究は、LLMのクロスドメイン妥当性と過剰適合リスクの課題を浮き彫りにしている。
評価を通して,ラベルの不均一性を高めることによってヘイトスピーチのニュアンスを把握できる微調整モデルの必要性を強調する。
最後に,ヘイトスピーチ検出の将来へのビジョンとして,ドメイン間の一般化可能性と適切なベンチマーク手法を強調した。
関連論文リスト
- Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning [4.136573141724715]
インターネット上でのヘイトスピーチは、デジタルプラットフォームの安全性にとって大きな課題となる。
近年の研究では、特定のモダリティに合わせた検出モデルが開発されている。
本研究では,大規模言語モデルを用いたテキスト内学習を多用した広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-10-08T01:27:12Z) - Probing Critical Learning Dynamics of PLMs for Hate Speech Detection [39.970726250810635]
広く採用されているにもかかわらず、事前訓練された言語モデルにおける様々な重要な側面がヘイトスピーチ検出におけるパフォーマンスにどのように影響するかは研究されていない。
我々は、さまざまな事前学習モデルの比較、種子の堅牢性、微調整設定、事前学習データ収集時間の影響について深く掘り下げる。
本分析では, プレトレーニング中の下流タスクの早期ピーク, より最近のプレトレーニングコーパスの採用による限られたメリット, 微調整時の特定のレイヤの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-02-03T13:23:51Z) - Causality Guided Disentanglement for Cross-Platform Hate Speech
Detection [15.489092194564149]
ソーシャルメディアプラットフォームはオープンな言論を促進する価値があるにもかかわらず、しばしば有害なコンテンツを広めるために利用される。
本研究では,あるプラットフォームのデータに基づいて学習し,複数のプラットフォームに一般化可能な,クロスプラットフォームのヘイトスピーチ検出モデルを提案する。
4つのプラットフォームにわたる実験は、一般化されたヘイトスピーチを検出する既存の最先端手法と比較して、モデルの有効性が向上していることを強調した。
論文 参考訳(メタデータ) (2023-08-03T23:39:03Z) - Hate Speech Detection via Dual Contrastive Learning [25.878271501274245]
本稿では,ヘイトスピーチ検出のための新しい双方向コントラスト学習フレームワークを提案する。
本フレームワークは,自己教師型学習と教師型学習の損失を協調的に最適化し,スパンレベルの情報を取得する。
公開可能な2つの英語データセットの実験を行い、実験結果から、提案モデルが最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T13:23:36Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。