論文の概要: Human-Aligned Faithfulness in Toxicity Explanations of LLMs
- arxiv url: http://arxiv.org/abs/2506.19113v1
- Date: Mon, 23 Jun 2025 20:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.381739
- Title: Human-Aligned Faithfulness in Toxicity Explanations of LLMs
- Title(参考訳): LLMの毒性説明における人間指向の信条
- Authors: Ramaravind K. Mothilal, Joanna Roy, Syed Ishtiaque Ahmed, Shion Guha,
- Abstract要約: 我々は,自由形態の毒性説明が理想的な条件下での合理的な人間とどのように一致しているかを測定するための新しい基準を開発する。
3つのLlamaモデルと8B Ministralモデルで5つの多様な毒性データセット上で実験を行った。
以上の結果から,LSMは単純なプロンプトに対して妥当な説明を導出するが,原因の完全セット,個人的理由,毒性のスタンスとの微妙な関係が引き起こされた場合,毒性に関する推論は失敗することが明らかとなった。
- 参考スコア(独自算出の注目度): 20.993979880805487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discourse around toxicity and LLMs in NLP largely revolves around detection tasks. This work shifts the focus to evaluating LLMs' reasoning about toxicity -- from their explanations that justify a stance -- to enhance their trustworthiness in downstream tasks. Despite extensive research on explainability, it is not straightforward to adopt existing methods to evaluate free-form toxicity explanation due to their over-reliance on input text perturbations, among other challenges. To account for these, we propose a novel, theoretically-grounded multi-dimensional criterion, Human-Aligned Faithfulness (HAF), that measures the extent to which LLMs' free-form toxicity explanations align with those of a rational human under ideal conditions. We develop six metrics, based on uncertainty quantification, to comprehensively evaluate \haf of LLMs' toxicity explanations with no human involvement, and highlight how "non-ideal" the explanations are. We conduct several experiments on three Llama models (of size up to 70B) and an 8B Ministral model on five diverse toxicity datasets. Our results show that while LLMs generate plausible explanations to simple prompts, their reasoning about toxicity breaks down when prompted about the nuanced relations between the complete set of reasons, the individual reasons, and their toxicity stances, resulting in inconsistent and nonsensical responses. We open-source our code and LLM-generated explanations at https://github.com/uofthcdslab/HAF.
- Abstract(参考訳): NLPにおける毒性とLSMに関する談話は、主に検出タスクを中心に展開される。
この研究は、LCMの毒性に関する推論を、その立場を正当化する説明から、下流のタスクにおける信頼性を高めることへと、焦点をシフトさせる。
説明可能性に関する広範な研究にもかかわらず、入力テキストの摂動への過度な依存から、既存のフリーフォーム毒性説明法を採用することは容易ではない。
そこで本研究では,LLMのフリーフォーム毒性説明が,理想的条件下での有理的人間とどの程度一致しているかを測る,理論上は多次元的基準であるHuman-Aligned Faithfulness(HAF)を提案する。
我々は,不確実性定量化に基づく6つの指標を開発し,LLMの毒性説明の「ハフ」を人間の関与なしに包括的に評価し,その説明がいかに「非理想的」であるかを明らかにする。
3つのLlamaモデル(70Bまでの大きさ)と5つの多様な毒性データセット上で8B Ministralモデルについていくつかの実験を行った。
以上の結果から,LSMは単純なプロンプトに対して妥当な説明を導出するが,原因の完全なセット,個人的理由,および毒性のスタンスとの不整合性,非感覚的応答との不整合性の関係を誘発すると,毒性に関する推論は破綻することがわかった。
コードとLLM生成の説明はhttps://github.com/uofthcdslab/HAF.comで公開しています。
関連論文リスト
- Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。