論文の概要: Don't Go To Extremes: Revealing the Excessive Sensitivity and
Calibration Limitations of LLMs in Implicit Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2402.11406v2
- Date: Mon, 26 Feb 2024 16:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:00:39.163555
- Title: Don't Go To Extremes: Revealing the Excessive Sensitivity and
Calibration Limitations of LLMs in Implicit Hate Speech Detection
- Title(参考訳): 極端に言うな - 暗黙のヘイトスピーチ検出におけるllmの過度の感度とキャリブレーション制限を明らかにする
- Authors: Min Zhang, Jianfeng He, Taoran Ji, Chang-Tien Lu
- Abstract要約: 本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
- 参考スコア(独自算出の注目度): 31.831677567088782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fairness and trustworthiness of Large Language Models (LLMs) are
receiving increasing attention. Implicit hate speech, which employs indirect
language to convey hateful intentions, occupies a significant portion of
practice. However, the extent to which LLMs effectively address this issue
remains insufficiently examined. This paper delves into the capability of LLMs
to detect implicit hate speech (Classification Task) and express confidence in
their responses (Calibration Task). Our evaluation meticulously considers
various prompt patterns and mainstream uncertainty estimation methods. Our
findings highlight that LLMs exhibit two extremes: (1) LLMs display excessive
sensitivity towards groups or topics that may cause fairness issues, resulting
in misclassifying benign statements as hate speech. (2) LLMs' confidence scores
for each method excessively concentrate on a fixed range, remaining unchanged
regardless of the dataset's complexity. Consequently, the calibration
performance is heavily reliant on primary classification accuracy. These
discoveries unveil new limitations of LLMs, underscoring the need for caution
when optimizing models to ensure they do not veer towards extremes. This serves
as a reminder to carefully consider sensitivity and confidence in the pursuit
of model fairness.
- Abstract(参考訳): 大規模言語モデル(LLM)の公平性と信頼性は注目されている。
憎しみの意図を伝えるために間接言語を用いる暗黙のヘイトスピーチは、実践のかなりの部分を占める。
しかし、LLMがこの問題に効果的に対処する程度については、まだ十分に検証されていない。
本稿では,LLMが暗黙のヘイトスピーチ(分類タスク)を検出し,その応答に対する自信を表現する能力について述べる。
本評価は,様々なプロンプトパターンと主観的不確実性推定手法を念頭において検討する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
(2)各手法に対するllmsの信頼度スコアは固定範囲に集中し、データセットの複雑さにかかわらず変わらない。
これにより、キャリブレーション性能は一次分類精度に大きく依存する。
これらの発見はLSMの新たな制限を明らかにし、極端に向かないようモデルを最適化する際の注意が必要であることを強調している。
これは、モデルフェアネスの追求における感度と信頼性を慎重に考慮するためのリマインダーとして機能する。
関連論文リスト
- Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Harnessing Artificial Intelligence to Combat Online Hate: Exploring the
Challenges and Opportunities of Large Language Models in Hate Speech
Detection [4.653571633477755]
大規模言語モデル(LLM)は、翻訳、要約、感情分析など、言語生成以外の多くの多様なアプリケーションで優れている。
このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-03-12T19:12:28Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。