論文の概要: Concept-Level Explainability for Auditing & Steering LLM Responses
- arxiv url: http://arxiv.org/abs/2505.07610v2
- Date: Mon, 19 May 2025 14:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.654625
- Title: Concept-Level Explainability for Auditing & Steering LLM Responses
- Title(参考訳): オーディティング・ステアリング LLM 応答に対する概念レベル説明可能性
- Authors: Kenza Amara, Rita Sevastjanova, Mennatallah El-Assady,
- Abstract要約: ConceptX はモデルに依存しない、概念レベルの説明可能性の方法である。
プロンプト内で意味的にリッチなトークンを識別し、出力のセマンティックな類似性に基づいてそれらの重要性を割り当てる。
偏見の源を明らかにすることによって監査と、LPM応答の有害性を低下させるプロンプトを変更することによって、ステアリングの両方を可能にする。
- 参考スコア(独自算出の注目度): 12.089513278445704
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) become widely deployed, concerns about their safety and alignment grow. An approach to steer LLM behavior, such as mitigating biases or defending against jailbreaks, is to identify which parts of a prompt influence specific aspects of the model's output. Token-level attribution methods offer a promising solution, but still struggle in text generation, explaining the presence of each token in the output separately, rather than the underlying semantics of the entire LLM response. We introduce ConceptX, a model-agnostic, concept-level explainability method that identifies the concepts, i.e., semantically rich tokens in the prompt, and assigns them importance based on the outputs' semantic similarity. Unlike current token-level methods, ConceptX also offers to preserve context integrity through in-place token replacements and supports flexible explanation goals, e.g., gender bias. ConceptX enables both auditing, by uncovering sources of bias, and steering, by modifying prompts to shift the sentiment or reduce the harmfulness of LLM responses, without requiring retraining. Across three LLMs, ConceptX outperforms token-level methods like TokenSHAP in both faithfulness and human alignment. Steering tasks boost sentiment shift by 0.252 versus 0.131 for random edits and lower attack success rates from 0.463 to 0.242, outperforming attribution and paraphrasing baselines. While prompt engineering and self-explaining methods sometimes yield safer responses, ConceptX offers a transparent and faithful alternative for improving LLM safety and alignment, demonstrating the practical value of attribution-based explainability in guiding LLM behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)が広くデプロイされるにつれ、安全性やアライメントに関する懸念が高まっている。
バイアスを緩和したり、脱獄を防いだりといったLCMの振る舞いを操るアプローチは、モデル出力の特定の側面に即時的に影響を及ぼす部分を特定することである。
トークンレベルの属性法は、有望な解決策を提供するが、それでもテキスト生成に苦慮し、LLM応答全体の基本的な意味論ではなく、出力にそれぞれのトークンが存在することを別々に説明する。
本研究では,モデルに依存しない概念レベルの説明可能性手法であるConceptXを紹介し,その概念,すなわちプロンプト内の意味的にリッチなトークンを識別し,出力のセマンティックな類似性に基づいてそれらの重要性を割り当てる。
現行のトークンレベルのメソッドとは異なり、ConceptXでは、インプレーストークン置換を通じてコンテキスト整合性を維持し、フレキシブルな説明目標、例えばジェンダーバイアスをサポートする。
コンセプションXは、バイアスの源を明らかにすることによって監査とステアリングの両方を可能にし、リトレーニングを必要とせず、感情の変化やLLM応答の有害性を減少させるプロンプトを修正できる。
コンセプションXは3つのLLMで、トークンレベルのメソッドであるTokenSHAPよりも忠実さと人間のアライメントに優れています。
ステアリングタスクは、ランダムな編集では0.252対0.131で感情シフトを加速し、攻撃の成功率は0.2463から0.242に低下し、属性とパラフレージングベースラインを上回っている。
迅速な工学的手法と自己説明的手法は、時にはより安全な応答をもたらすが、ConceptXは、LCMの安全性とアライメントを改善するための透明で忠実な代替手段を提供し、LCMの振る舞いを導くための帰属に基づく説明可能性の実践的価値を実証している。
関連論文リスト
- Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - SEER: Self-Explainability Enhancement of Large Language Models' Representations [18.840860385644316]
大規模言語モデル(LLM)を説明する自己説明法SEERを提案する。
本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。
自己説明型LLMが説明可能性と性能を一貫した改善を達成するための信頼性関連タスクへのSEERの適用について紹介する。
論文 参考訳(メタデータ) (2025-02-07T13:25:33Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。