論文の概要: Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP
- arxiv url: http://arxiv.org/abs/2505.11189v1
- Date: Fri, 16 May 2025 12:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.973479
- Title: Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP
- Title(参考訳): グローバルXAI法はLLMにバイアスを注入できるか? SHAP法とルール抽出法とルールSHAP法
- Authors: Francesco Sovrano,
- Abstract要約: 生成AIシステムは、情報の拡散だけでなく、誤情報や偏見の拡散にも役立ちます。
説明可能なAI(XAI)は、AIシステムの有効性を明らかにし、誤った振る舞いや偏見を公開することを目的としている。
本稿では,ルール抽出やSHAPといったグローバルXAI手法の言語モデルにおけるバイアス検出への応用について検討する。
- 参考スコア(独自算出の注目度): 0.9790236766474201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI systems can help spread information but also misinformation and biases, potentially undermining the UN Sustainable Development Goals (SDGs). Explainable AI (XAI) aims to reveal the inner workings of AI systems and expose misbehaviours or biases. However, current XAI tools, built for simpler models, struggle to handle the non-numerical nature of large language models (LLMs). This paper examines the effectiveness of global XAI methods, such as rule-extraction algorithms and SHAP, in detecting bias in LLMs. To do so, we first show a text-to-ordinal mapping strategy to convert non-numerical inputs/outputs into numerical features, enabling these tools to identify (some) misinformation-related biases in LLM-generated content. Then, we inject non-linear biases of varying complexity (univariate, conjunctive, and non-convex) into widespread LLMs like ChatGPT and Llama via system instructions, using global XAI methods to detect them. This way, we found that RuleFit struggles with conjunctive and non-convex biases, while SHAP can approximate conjunctive biases but cannot express them as actionable rules. Hence, we introduce RuleSHAP, a global rule extraction algorithm combining SHAP and RuleFit to detect more non-univariate biases, improving injected bias detection over RuleFit by +94% (MRR@1) on average.
- Abstract(参考訳): 生成可能なAIシステムは、情報を広めるだけでなく、誤情報や偏見にも役立ち、国連持続可能な開発目標(SDG)を損なう可能性がある。
説明可能なAI(XAI)は、AIシステムの内部動作を明らかにし、誤った振る舞いや偏見を公開することを目的としている。
しかし、より単純なモデルのために作られた現在のXAIツールは、大規模言語モデル(LLM)の非数値的な性質を扱うのに苦労している。
本稿では,ルール抽出アルゴリズムやSHAPなどのグローバルXAI手法がLLMのバイアス検出に有効であることを示す。
そこで我々はまず,非数値入力/出力を数値的特徴に変換するために,テキストから順序へのマッピング戦略を示す。
次に,ChatGPT や Llama などの広範囲な LLM に対して,グローバルな XAI 手法を用いて,様々な複雑性(ユニバリケート,共役,非凸)の非線形バイアスをシステム命令を介して注入する。
このようにして、StrucFitは共役バイアスと非凸バイアスに苦しむのに対し、SHAPは共役バイアスを近似することができるが、作用可能なルールとして表現することはできない。
そこで, SHAP と RuleFit を組み合わせた大域的ルール抽出アルゴリズムである RuleSHAP を導入し, より一様でないバイアスを検出する。
関連論文リスト
- Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models [40.853803921563596]
現在の大規模言語モデル(LLM)は、まだデータセットのバイアスをキャプチャして、推論時に利用することができる。
本稿では,情報ゲイン誘導型因果介入脱バイアスフレームワークを提案する。
IGCIDBはLLMを効果的にデバイアスし、様々なタスクにおける一般化性を改善する。
論文 参考訳(メタデータ) (2025-04-17T12:39:25Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Local Universal Explainer (LUX) -- a rule-based explainer with factual, counterfactual and visual explanations [7.673339435080445]
Local Universal Explainer (LUX) は、現実的、対実的、視覚的な説明を生成できるルールベースの説明器である。
これは、決定木アルゴリズムの修正版に基づいており、斜め分割とSHAPのような重要なXAIメソッドとの統合を可能にする。
提案手法を実データと合成データセットで検証し, LORE, EXPLAN, Anchorなどの最先端のルールベースの説明器と比較した。
論文 参考訳(メタデータ) (2023-10-23T13:04:15Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Utilizing XAI technique to improve autoencoder based model for computer
network anomaly detection with shapley additive explanation(SHAP) [0.0]
機械学習(ML)とディープラーニング(DL)メソッドは、特にコンピュータネットワークセキュリティにおいて急速に採用されている。
MLとDLベースのモデルの透明性の欠如は、実装の大きな障害であり、ブラックボックスの性質から批判されている。
XAIは、これらのモデルの信頼性を向上させる上で、説明やアウトプットの解釈を通じて有望な分野である。
論文 参考訳(メタデータ) (2021-12-14T09:42:04Z) - Stratified Rule-Aware Network for Abstract Visual Reasoning [46.015682319351676]
Raven's Progressive Matrices (RPM) テストは一般的に抽象的推論の能力を調べるために使用される。
畳み込みニューラルネットワーク(CNN)を利用した最近の研究は、RPMテストを達成するための奨励的な進歩を達成している。
本稿では,2つの入力シーケンスに対するルール埋め込みを生成するためのSRAN(Stratified Rule-Aware Network)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。