論文の概要: Hatevolution: What Static Benchmarks Don't Tell Us
- arxiv url: http://arxiv.org/abs/2506.12148v1
- Date: Fri, 13 Jun 2025 18:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.296928
- Title: Hatevolution: What Static Benchmarks Don't Tell Us
- Title(参考訳): Hatevolution: 静的ベンチマークが教えてくれないもの
- Authors: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela,
- Abstract要約: 我々は、2つの進化するヘイトスピーチ実験における20言語モデルの頑健さを実証的に評価した。
本研究は,ヘイトスピーチ領域における言語モデルの正確かつ確実な評価のために,時間感受性言語ベンチマークを求めるものである。
- 参考スコア(独自算出の注目度): 14.8862493303907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language changes over time, including in the hate speech domain, which evolves quickly following social dynamics and cultural shifts. While NLP research has investigated the impact of language evolution on model training and has proposed several solutions for it, its impact on model benchmarking remains under-explored. Yet, hate speech benchmarks play a crucial role to ensure model safety. In this paper, we empirically evaluate the robustness of 20 language models across two evolving hate speech experiments, and we show the temporal misalignment between static and time-sensitive evaluations. Our findings call for time-sensitive linguistic benchmarks in order to correctly and reliably evaluate language models in the hate speech domain.
- Abstract(参考訳): ヘイトスピーチドメインを含む言語は、社会的ダイナミクスや文化の変化によって急速に進化する。
NLP研究は、言語進化がモデルトレーニングに与える影響を調査し、それに対するいくつかの解決策を提案してきたが、モデルベンチマークへの影響は未検討のままである。
しかし、ヘイトスピーチベンチマークはモデルの安全性を確保する上で重要な役割を果たす。
本稿では,2つのヘイトスピーチ実験における20言語モデルの頑健さを実証的に評価し,静的評価と時間感受性評価の時間的ずれを示す。
本研究は,ヘイトスピーチ領域における言語モデルの正確かつ確実な評価のために,時間感受性言語ベンチマークを求めるものである。
関連論文リスト
- Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - A Systematic Analysis on the Temporal Generalization of Language Models in Social Media [12.035331011654078]
本稿では,ソーシャルメディア,特にTwitterの時間的変化に注目した。
本研究では,言語モデル(LM)の性能を時間的シフトで評価するための統一評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T05:41:06Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Examining Temporal Bias in Abusive Language Detection [3.465144840147315]
乱用言語を自動的に検出する機械学習モデルが開発されている。
これらのモデルは、時間とともに話題、言語の使用、社会的規範が変化する現象である時間的偏見に悩まされる。
本研究では,多言語にわたる虐待的言語検出における時間的バイアスの性質と影響について検討した。
論文 参考訳(メタデータ) (2023-09-25T13:59:39Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。