論文の概要: Human-Aligned Faithfulness in Toxicity Explanations of LLMs
- arxiv url: http://arxiv.org/abs/2506.19113v1
- Date: Mon, 23 Jun 2025 20:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.381739
- Title: Human-Aligned Faithfulness in Toxicity Explanations of LLMs
- Title(参考訳): LLMの毒性説明における人間指向の信条
- Authors: Ramaravind K. Mothilal, Joanna Roy, Syed Ishtiaque Ahmed, Shion Guha,
- Abstract要約: 我々は,自由形態の毒性説明が理想的な条件下での合理的な人間とどのように一致しているかを測定するための新しい基準を開発する。
3つのLlamaモデルと8B Ministralモデルで5つの多様な毒性データセット上で実験を行った。
以上の結果から,LSMは単純なプロンプトに対して妥当な説明を導出するが,原因の完全セット,個人的理由,毒性のスタンスとの微妙な関係が引き起こされた場合,毒性に関する推論は失敗することが明らかとなった。
- 参考スコア(独自算出の注目度): 20.993979880805487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discourse around toxicity and LLMs in NLP largely revolves around detection tasks. This work shifts the focus to evaluating LLMs' reasoning about toxicity -- from their explanations that justify a stance -- to enhance their trustworthiness in downstream tasks. Despite extensive research on explainability, it is not straightforward to adopt existing methods to evaluate free-form toxicity explanation due to their over-reliance on input text perturbations, among other challenges. To account for these, we propose a novel, theoretically-grounded multi-dimensional criterion, Human-Aligned Faithfulness (HAF), that measures the extent to which LLMs' free-form toxicity explanations align with those of a rational human under ideal conditions. We develop six metrics, based on uncertainty quantification, to comprehensively evaluate \haf of LLMs' toxicity explanations with no human involvement, and highlight how "non-ideal" the explanations are. We conduct several experiments on three Llama models (of size up to 70B) and an 8B Ministral model on five diverse toxicity datasets. Our results show that while LLMs generate plausible explanations to simple prompts, their reasoning about toxicity breaks down when prompted about the nuanced relations between the complete set of reasons, the individual reasons, and their toxicity stances, resulting in inconsistent and nonsensical responses. We open-source our code and LLM-generated explanations at https://github.com/uofthcdslab/HAF.
- Abstract(参考訳): NLPにおける毒性とLSMに関する談話は、主に検出タスクを中心に展開される。
この研究は、LCMの毒性に関する推論を、その立場を正当化する説明から、下流のタスクにおける信頼性を高めることへと、焦点をシフトさせる。
説明可能性に関する広範な研究にもかかわらず、入力テキストの摂動への過度な依存から、既存のフリーフォーム毒性説明法を採用することは容易ではない。
そこで本研究では,LLMのフリーフォーム毒性説明が,理想的条件下での有理的人間とどの程度一致しているかを測る,理論上は多次元的基準であるHuman-Aligned Faithfulness(HAF)を提案する。
我々は,不確実性定量化に基づく6つの指標を開発し,LLMの毒性説明の「ハフ」を人間の関与なしに包括的に評価し,その説明がいかに「非理想的」であるかを明らかにする。
3つのLlamaモデル(70Bまでの大きさ)と5つの多様な毒性データセット上で8B Ministralモデルについていくつかの実験を行った。
以上の結果から,LSMは単純なプロンプトに対して妥当な説明を導出するが,原因の完全なセット,個人的理由,および毒性のスタンスとの不整合性,非感覚的応答との不整合性の関係を誘発すると,毒性に関する推論は破綻することがわかった。
コードとLLM生成の説明はhttps://github.com/uofthcdslab/HAF.comで公開しています。
関連論文リスト
- WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Toxicity Detection for Free [16.07605369484645]
LLMイントロスペクション(MULI)を用いたモデレーションを導入し,LSM自体から直接抽出した情報を用いて有害なプロンプトを検出する。
第一応答トークンロジットの疎ロジスティック回帰モデルを用いて有毒なプロンプトのロバスト検出を行う。
論文 参考訳(メタデータ) (2024-05-29T07:03:31Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。