論文の概要: Probing Critical Learning Dynamics of PLMs for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2402.02144v1
- Date: Sat, 3 Feb 2024 13:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:51:17.645629
- Title: Probing Critical Learning Dynamics of PLMs for Hate Speech Detection
- Title(参考訳): ヘイトスピーチ検出のためのplmの臨界学習ダイナミクスの探索
- Authors: Sarah Masud, Mohammad Aflah Khan, Vikram Goyal, Md Shad Akhtar, Tanmoy
Chakraborty
- Abstract要約: 広く採用されているにもかかわらず、事前訓練された言語モデルにおける様々な重要な側面がヘイトスピーチ検出におけるパフォーマンスにどのように影響するかは研究されていない。
我々は、さまざまな事前学習モデルの比較、種子の堅牢性、微調整設定、事前学習データ収集時間の影響について深く掘り下げる。
本分析では, プレトレーニング中の下流タスクの早期ピーク, より最近のプレトレーニングコーパスの採用による限られたメリット, 微調整時の特定のレイヤの重要性を明らかにした。
- 参考スコア(独自算出の注目度): 39.970726250810635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the widespread adoption, there is a lack of research into how various
critical aspects of pretrained language models (PLMs) affect their performance
in hate speech detection. Through five research questions, our findings and
recommendations lay the groundwork for empirically investigating different
aspects of PLMs' use in hate speech detection. We deep dive into comparing
different pretrained models, evaluating their seed robustness, finetuning
settings, and the impact of pretraining data collection time. Our analysis
reveals early peaks for downstream tasks during pretraining, the limited
benefit of employing a more recent pretraining corpus, and the significance of
specific layers during finetuning. We further call into question the use of
domain-specific models and highlight the need for dynamic datasets for
benchmarking hate speech detection.
- Abstract(参考訳): 広く採用されているにもかかわらず、プレトレーニング言語モデル(PLM)の様々な重要な側面がヘイトスピーチ検出におけるパフォーマンスにどのように影響するかは研究されていない。
5つの研究質問から得られた知見と勧告は,plmのヘイトスピーチ検出における使用方法の異なる側面を実証的に調査するための基礎となる。
さまざまなトレーニング済みモデルの比較、シードロバスト性の評価、微調整設定、トレーニング済みデータ収集時間の影響について深く掘り下げた。
本分析では, プレトレーニング中の下流タスクの早期ピーク, より最近のプレトレーニングコーパスの採用によるメリット, 微調整時の特定のレイヤの重要性を明らかにした。
さらに、ドメイン固有モデルの使用に疑問を投げかけ、ヘイトスピーチ検出をベンチマークするための動的データセットの必要性を強調した。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection [10.014248704653]
本研究では,ヘイトスピーチの同定における事前学習および微調整型大言語モデル(LLM)の有効性と適応性について検討した。
LLMは、事前トレーニングなしでも最先端技術に対して大きな優位性を提供します。
我々は、ヘイトスピーチ検出の未来をビジョンとして、ドメイン間の一般化可能性と適切なベンチマークプラクティスを強調した。
論文 参考訳(メタデータ) (2023-10-29T10:07:32Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - On the Challenges of Building Datasets for Hate Speech Detection [0.0]
我々はまず,データ中心のレンズを用いてヘイトスピーチ検出を取り巻く問題を分析する。
次に、データ生成パイプラインを7つの広範囲にわたってカプセル化する、包括的なフレームワークの概要を示します。
論文 参考訳(メタデータ) (2023-09-06T11:15:47Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。