論文の概要: Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP
- arxiv url: http://arxiv.org/abs/2505.11189v2
- Date: Tue, 23 Sep 2025 15:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 18:29:14.479766
- Title: Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP
- Title(参考訳): グローバルXAI法はLLMにバイアスを注入できるか? SHAP法とルール抽出法とルールSHAP法
- Authors: Francesco Sovrano,
- Abstract要約: 大規模言語モデル(LLM)は誤報を増幅し、国連のような社会的目標を損なう。
本研究では,誤った情報(価フレーミング,情報過負荷)を文書化した3つのドライバについて検討する。
LLMがデフォルトをエンコードする証拠を根拠として、私たちは次のように尋ねる。 誤った表現的行動の背後にある一般的な信念駆動者は、明確なルールとしてLSMから回復できるだろうか?
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can amplify misinformation, undermining societal goals like the UN SDGs. We study three documented drivers of misinformation (valence framing, information overload, and oversimplification) which are often shaped by one's default beliefs. Building on evidence that LLMs encode such defaults (e.g., "joy is positive," "math is complex") and can act as "bags of heuristics," we ask: can general belief-driven heuristics behind misinformative behaviour be recovered from LLMs as clear rules? A key obstacle is that global rule-extraction methods in explainable AI (XAI) are built for numerical inputs/outputs, not text. We address this by eliciting global LLM beliefs and mapping them to numerical scores via statistically reliable abstractions, thereby enabling off-the-shelf global XAI to detect belief-related heuristics in LLMs. To obtain ground truth, we hard-code bias-inducing nonlinear heuristics of increasing complexity (univariate, conjunctive, nonconvex) into popular LLMs (ChatGPT and Llama) via system instructions. This way, we find that RuleFit under-detects non-univariate biases, while global SHAP better approximates conjunctive ones but does not yield actionable rules. To bridge this gap, we propose RuleSHAP, a rule-extraction algorithm that couples global SHAP-value aggregations with rule induction to better capture non-univariate bias, improving heuristics detection over RuleFit by +94% (MRR@1) on average. Our results provide a practical pathway for revealing belief-driven biases in LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)は誤報を増幅し、国連のSDGのような社会的目標を損なう。
虚偽情報(価フレーミング、情報の過負荷、過度に単純化)を文書化した3つのドライバについて検討する。
LLMがそのようなデフォルト(例えば、"joy is positive", "math is complex")を符号化し、"bags of Heuristics"(ヒューリスティックのバグ)として機能する証拠を根拠として、我々は次のように質問する。
重要な障害は、説明可能なAI(XAI)におけるグローバルなルール抽出手法が、テキストではなく数値入力/出力のために構築されていることである。
我々は,グローバルなLLM信念を抽出し,統計的に信頼性の高い抽象化を通じて数値スコアにマッピングすることにより,既成のグローバルXAIがLLMの信念関連ヒューリスティックスを検出することにより,この問題に対処する。
そこで本研究では,複雑性を増大させる非線形ヒューリスティックス(ユニバリケート,結合性,非凸性)を,システム命令によるLLM(ChatGPT,Llama)にハードコードする。
このようにして、ルールファイトは非一様偏差を過度に検出するのに対し、グローバルSHAPは共役バイアスをよりよく近似するが、作用可能なルールは得られない。
このギャップを埋めるために、ルールSHAPを提案する。このアルゴリズムは、グローバルSHAP値のアグリゲーションとルールインダクションを結合して、非一様偏差をよりよく捉え、ルールフィット上のヒューリスティックス検出を平均で+94%改善する(MRR@1)。
本研究は, LLMにおける信念に基づくバイアスを明らかにするための実践的経路を提供する。
関連論文リスト
- The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models [67.58848748317506]
拡散大言語モデル(dLLM)は、従来のLLMの厳格な左から右への制約を破る。
本稿では,dLLMsの推論境界を広げるよりも,任意の順序生成を現在の形式で狭くするという,直感に反する現実を明らかにする。
論文 参考訳(メタデータ) (2026-01-21T16:41:58Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - RLIE: Rule Generation with Logistic Regression, Iterative Refinement, and Evaluation for Large Language Models [13.343944091570386]
大規模言語モデル(LLM)は、従来のルール学習において事前定義された述語空間の必要性を脇取りして、自然言語でルールを提案することができる。
本稿では,LLMと確率的モデリングを統合し,重み付きルールの集合を学習する統一フレームワークRLIEを提案する。
学習した重みでルールを直接適用すると性能が向上する一方、ルール、重み、ロジスティックモデルの出力は驚くほど精度が低下する。
論文 参考訳(メタデータ) (2025-10-22T15:50:04Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models [40.853803921563596]
現在の大規模言語モデル(LLM)は、まだデータセットのバイアスをキャプチャして、推論時に利用することができる。
本稿では,情報ゲイン誘導型因果介入脱バイアスフレームワークを提案する。
IGCIDBはLLMを効果的にデバイアスし、様々なタスクにおける一般化性を改善する。
論文 参考訳(メタデータ) (2025-04-17T12:39:25Z) - Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。
LLM が ICL を用いて,ベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T18:59:23Z) - Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,雑音の多い例で融合したデータからルールを推論する際の,大規模言語モデルの能力を評価するタスクであるRobust Rule Injectionを紹介する。
1)SRRはノイズ下での性能劣化を最小限に抑えた他の手法よりも優れており、(2)若干の精度の変化にもかかわらず、LLMはノイズ下で不安定を示す。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文 参考訳(メタデータ) (2024-10-19T09:38:55Z) - WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。
LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。
本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文 参考訳(メタデータ) (2024-07-11T12:26:55Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Local Universal Explainer (LUX) -- a rule-based explainer with factual, counterfactual and visual explanations [7.673339435080445]
Local Universal Explainer (LUX) は、現実的、対実的、視覚的な説明を生成できるルールベースの説明器である。
これは、決定木アルゴリズムの修正版に基づいており、斜め分割とSHAPのような重要なXAIメソッドとの統合を可能にする。
提案手法を実データと合成データセットで検証し, LORE, EXPLAN, Anchorなどの最先端のルールベースの説明器と比較した。
論文 参考訳(メタデータ) (2023-10-23T13:04:15Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Machine Learning with Probabilistic Law Discovery: A Concise
Introduction [77.34726150561087]
Probabilistic Law Discovery (PLD) は、確率論的ルール学習の変種を実装した論理ベースの機械学習手法である。
PLDはDecision Tree/Random Forestメソッドに近いが、関連するルールの定義方法に大きく異なる。
本稿はPLDの主な原則を概説し、その利点と限界を強調し、いくつかのアプリケーションガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-22T17:40:13Z) - Utilizing XAI technique to improve autoencoder based model for computer
network anomaly detection with shapley additive explanation(SHAP) [0.0]
機械学習(ML)とディープラーニング(DL)メソッドは、特にコンピュータネットワークセキュリティにおいて急速に採用されている。
MLとDLベースのモデルの透明性の欠如は、実装の大きな障害であり、ブラックボックスの性質から批判されている。
XAIは、これらのモデルの信頼性を向上させる上で、説明やアウトプットの解釈を通じて有望な分野である。
論文 参考訳(メタデータ) (2021-12-14T09:42:04Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Stratified Rule-Aware Network for Abstract Visual Reasoning [46.015682319351676]
Raven's Progressive Matrices (RPM) テストは一般的に抽象的推論の能力を調べるために使用される。
畳み込みニューラルネットワーク(CNN)を利用した最近の研究は、RPMテストを達成するための奨励的な進歩を達成している。
本稿では,2つの入力シーケンスに対するルール埋め込みを生成するためのSRAN(Stratified Rule-Aware Network)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。