論文の概要: Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP
- arxiv url: http://arxiv.org/abs/2505.11189v2
- Date: Tue, 23 Sep 2025 15:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 18:29:14.479766
- Title: Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP
- Title(参考訳): グローバルXAI法はLLMにバイアスを注入できるか? SHAP法とルール抽出法とルールSHAP法
- Authors: Francesco Sovrano,
- Abstract要約: 大規模言語モデル(LLM)は誤報を増幅し、国連のような社会的目標を損なう。
本研究では,誤った情報(価フレーミング,情報過負荷)を文書化した3つのドライバについて検討する。
LLMがデフォルトをエンコードする証拠を根拠として、私たちは次のように尋ねる。 誤った表現的行動の背後にある一般的な信念駆動者は、明確なルールとしてLSMから回復できるだろうか?
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can amplify misinformation, undermining societal goals like the UN SDGs. We study three documented drivers of misinformation (valence framing, information overload, and oversimplification) which are often shaped by one's default beliefs. Building on evidence that LLMs encode such defaults (e.g., "joy is positive," "math is complex") and can act as "bags of heuristics," we ask: can general belief-driven heuristics behind misinformative behaviour be recovered from LLMs as clear rules? A key obstacle is that global rule-extraction methods in explainable AI (XAI) are built for numerical inputs/outputs, not text. We address this by eliciting global LLM beliefs and mapping them to numerical scores via statistically reliable abstractions, thereby enabling off-the-shelf global XAI to detect belief-related heuristics in LLMs. To obtain ground truth, we hard-code bias-inducing nonlinear heuristics of increasing complexity (univariate, conjunctive, nonconvex) into popular LLMs (ChatGPT and Llama) via system instructions. This way, we find that RuleFit under-detects non-univariate biases, while global SHAP better approximates conjunctive ones but does not yield actionable rules. To bridge this gap, we propose RuleSHAP, a rule-extraction algorithm that couples global SHAP-value aggregations with rule induction to better capture non-univariate bias, improving heuristics detection over RuleFit by +94% (MRR@1) on average. Our results provide a practical pathway for revealing belief-driven biases in LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)は誤報を増幅し、国連のSDGのような社会的目標を損なう。
虚偽情報(価フレーミング、情報の過負荷、過度に単純化)を文書化した3つのドライバについて検討する。
LLMがそのようなデフォルト(例えば、"joy is positive", "math is complex")を符号化し、"bags of Heuristics"(ヒューリスティックのバグ)として機能する証拠を根拠として、我々は次のように質問する。
重要な障害は、説明可能なAI(XAI)におけるグローバルなルール抽出手法が、テキストではなく数値入力/出力のために構築されていることである。
我々は,グローバルなLLM信念を抽出し,統計的に信頼性の高い抽象化を通じて数値スコアにマッピングすることにより,既成のグローバルXAIがLLMの信念関連ヒューリスティックスを検出することにより,この問題に対処する。
そこで本研究では,複雑性を増大させる非線形ヒューリスティックス(ユニバリケート,結合性,非凸性)を,システム命令によるLLM(ChatGPT,Llama)にハードコードする。
このようにして、ルールファイトは非一様偏差を過度に検出するのに対し、グローバルSHAPは共役バイアスをよりよく近似するが、作用可能なルールは得られない。
このギャップを埋めるために、ルールSHAPを提案する。このアルゴリズムは、グローバルSHAP値のアグリゲーションとルールインダクションを結合して、非一様偏差をよりよく捉え、ルールフィット上のヒューリスティックス検出を平均で+94%改善する(MRR@1)。
本研究は, LLMにおける信念に基づくバイアスを明らかにするための実践的経路を提供する。
関連論文リスト
- Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models [40.853803921563596]
現在の大規模言語モデル(LLM)は、まだデータセットのバイアスをキャプチャして、推論時に利用することができる。
本稿では,情報ゲイン誘導型因果介入脱バイアスフレームワークを提案する。
IGCIDBはLLMを効果的にデバイアスし、様々なタスクにおける一般化性を改善する。
論文 参考訳(メタデータ) (2025-04-17T12:39:25Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Local Universal Explainer (LUX) -- a rule-based explainer with factual, counterfactual and visual explanations [7.673339435080445]
Local Universal Explainer (LUX) は、現実的、対実的、視覚的な説明を生成できるルールベースの説明器である。
これは、決定木アルゴリズムの修正版に基づいており、斜め分割とSHAPのような重要なXAIメソッドとの統合を可能にする。
提案手法を実データと合成データセットで検証し, LORE, EXPLAN, Anchorなどの最先端のルールベースの説明器と比較した。
論文 参考訳(メタデータ) (2023-10-23T13:04:15Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Machine Learning with Probabilistic Law Discovery: A Concise
Introduction [77.34726150561087]
Probabilistic Law Discovery (PLD) は、確率論的ルール学習の変種を実装した論理ベースの機械学習手法である。
PLDはDecision Tree/Random Forestメソッドに近いが、関連するルールの定義方法に大きく異なる。
本稿はPLDの主な原則を概説し、その利点と限界を強調し、いくつかのアプリケーションガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-22T17:40:13Z) - Utilizing XAI technique to improve autoencoder based model for computer
network anomaly detection with shapley additive explanation(SHAP) [0.0]
機械学習(ML)とディープラーニング(DL)メソッドは、特にコンピュータネットワークセキュリティにおいて急速に採用されている。
MLとDLベースのモデルの透明性の欠如は、実装の大きな障害であり、ブラックボックスの性質から批判されている。
XAIは、これらのモデルの信頼性を向上させる上で、説明やアウトプットの解釈を通じて有望な分野である。
論文 参考訳(メタデータ) (2021-12-14T09:42:04Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Stratified Rule-Aware Network for Abstract Visual Reasoning [46.015682319351676]
Raven's Progressive Matrices (RPM) テストは一般的に抽象的推論の能力を調べるために使用される。
畳み込みニューラルネットワーク(CNN)を利用した最近の研究は、RPMテストを達成するための奨励的な進歩を達成している。
本稿では,2つの入力シーケンスに対するルール埋め込みを生成するためのSRAN(Stratified Rule-Aware Network)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。