論文の概要: LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
- arxiv url: http://arxiv.org/abs/2601.10700v2
- Date: Sun, 18 Jan 2026 06:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:45.204835
- Title: LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
- Title(参考訳): LIBERTy: 概念に基づくLLMと構造的反事実の記述のベンチマークのための因果的フレームワーク
- Authors: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart,
- Abstract要約: 概念に基づく説明は、高レベルの概念がモデル行動にどのように影響するかを定量化する。
既存のベンチマークは、不完全なプロキシとして機能する費用のかかる人手による対策に依存しています。
本稿では,構造上の逆ファクトペアを含むデータセットを構築するためのフレームワーク,LIBERTyを紹介する。
- 参考スコア(独自算出の注目度): 18.015918696398085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.
- Abstract(参考訳): 概念に基づく説明は、高レベルの概念(例えば、性別や経験)がモデル行動にどのように影響するかを定量化する。
最近の研究は、これらの説明の忠実さを、反事実から推定される基準因果効果と比較することによって評価している。
実際には、既存のベンチマークは、不完全なプロキシとして機能する費用のかかる人手による対策に依存しています。
これを解決するために, LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets) という構造対を含むデータセットを構築するためのフレームワークを紹介した。
LIBERTy はテキスト生成の明示的に定義された構造因果モデル (Structured Causal Models, SCM) に基礎を置いており、概念への介入は LLM が反事実を生成するまで SCM を通じて伝播する。
我々は,3つのデータセット(障害検出,CVスクリーニング,職場暴力予測)と,新しい評価基準,秩序-信条)を導入する。
それらを用いて,5つのモデルにまたがる幅広い手法を評価し,概念に基づく説明を改善するための実質的なヘッドルームを同定する。
LIBERTyはまた、介入に対するモデル感度を体系的に分析することを可能にする。
総じて、LIBERTyは、忠実な説明可能性手法を開発するための、待望のベンチマークを提供する。
関連論文リスト
- On the Factual Consistency of Text-based Explainable Recommendation Models [2.2153783542347805]
テキストベースの説明可能なレコメンデータの事実整合性を評価するための包括的フレームワークを提案する。
レビューから原子説明文を抽出するためにLSMを用いたプロンプトベースパイプラインを設計する。
LLMとNLIをベースとした手法を組み合わせたステートメントレベルのアライメントメトリクスを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:25:15Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts [0.6291443816903801]
本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。
本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
論文 参考訳(メタデータ) (2024-12-01T10:58:53Z) - DEAL: Disentangle and Localize Concept-level Explanations for VLMs [10.397502254316645]
大きな訓練済みのビジョンランゲージモデルでは、きめ細かい概念を特定できないかもしれない。
本研究では,人間のアノテーションを使わずに概念のDisEnt and Localize(アングル)概念レベルの説明を提案する。
実験結果から,提案手法はモデルの概念レベルの説明を,不整合性と局所性の観点から著しく改善することを示した。
論文 参考訳(メタデータ) (2024-07-19T15:39:19Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。