論文の概要: Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems
- arxiv url: http://arxiv.org/abs/2603.05024v1
- Date: Thu, 05 Mar 2026 10:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.180162
- Title: Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems
- Title(参考訳): 信頼の脆弱性の測定:ビジネス意思決定支援システムのための説明安定(CIES)による信頼性指数の策定
- Authors: Alin-Gabriel Vaduva, Simona-Vasilica Oprea, Adela Bara,
- Abstract要約: 本稿では,説明安定度(CIES)による信頼度指数(Credibility Index)について紹介する。
CIESは、予測自体だけでなく、予測の背後にある理由が一貫しているかどうかをキャプチャする。
その結果、モデル複雑性は説明信頼性に影響を与え、SMOTEによるクラス不均衡処理は予測性能だけでなく、説明安定性にも影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 3.8615905456206256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable Artificial Intelligence (XAI) methods (SHAP, LIME) are increasingly adopted to interpret models in high-stakes businesses. However, the credibility of these explanations, their stability under realistic data perturbations, remains unquantified. This paper introduces the Credibility Index via Explanation Stability (CIES), a mathematically grounded metric that measures how robust a model's explanations are when subject to realistic business noise. CIES captures whether the reasons behind a prediction remain consistent, not just the prediction itself. The metric employs a rank-weighted distance function that penalizes instability in the most important features disproportionately, reflecting business semantics where changes in top decision drivers are more consequential than changes in marginal features. We evaluate CIES across three datasets (customer churn, credit risk, employee attrition), four tree-based classification models and two data balancing conditions. Results demonstrate that model complexity impacts explanation credibility, class imbalance treatment via SMOTE affects not only predictive performance but also explanation stability, and CIES provides statistically superior discriminative power compared to a uniform baseline metric (p < 0.01 in all 24 configurations). A sensitivity analysis across four noise levels confirms the robustness of the metric itself. These findings offer business practitioners a deployable "credibility warning system" for AI-driven decision support.
- Abstract(参考訳): 説明可能な人工知能 (XAI) 手法 (SHAP, LIME) は、ハイテイクビジネスにおけるモデル解釈にますます採用されている。
しかし、これらの説明の信頼性、現実的なデータ摂動下での安定性は定かではない。
本稿では,説明安定度(CIES)による信頼度指数(Credibility Index)について紹介する。
CIESは、予測自体だけでなく、予測の背後にある理由が一貫しているかどうかをキャプチャする。
このメトリクスは、最も重要な特徴における不安定性を不均等に罰するランク重み付き距離関数を採用しており、最上位の意思決定者の変化が限界的な特徴の変化よりも適切であるようなビジネス意味論を反映している。
3つのデータセット(カストマーチャーン、信用リスク、従業員の誘惑)、木に基づく分類モデル4つ、データバランス条件2つにまたがるCIESを評価した。
その結果、モデル複雑性が説明信頼性に影響を及ぼし、SMOTEによるクラス不均衡処理は予測性能だけでなく、説明安定性にも影響を及ぼし、CIESは均一な基準線距離(p < 0.01)と比較して統計的に優れた識別力を提供することを示した。
4つのノイズレベルの感度解析は、計量自体の堅牢性を確認する。
これらの発見は、ビジネス実践者にAIによる意思決定支援のためのデプロイ可能な"クレディビリティ警告システム"を提供する。
関連論文リスト
- Uncertainty in Federated Granger Causality: From Origins to Systemic Consequences [3.122408196953971]
Granger Causality (GC)は時系列データから因果構造を学ぶための厳密なフレームワークを提供する。
フェデレーションGCアルゴリズムは因果関係を決定論的に推定し、不確実性を無視するのみである。
本稿では,不確実性を厳密に定量化するための最初の手法を確立する。
論文 参考訳(メタデータ) (2026-02-13T15:12:18Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Reliable Explanations or Random Noise? A Reliability Metric for XAI [6.948460965107209]
本研究では、4つの信頼性公理の下で説明安定性を定量化する指標である説明信頼性指数(ERI)を紹介する。
ERIは、説明信頼性の原則的評価を可能にし、より信頼できるAI(XAI)システムをサポートする。
論文 参考訳(メタデータ) (2026-02-04T22:04:07Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Mechanistic Interpretability as Statistical Estimation: A Variance Analysis of EAP-IG [10.620784202716404]
我々は,回路探索などの解釈可能性の手法を統計的推定器とみなすべきであると論じている。
本稿では,最先端回路探索手法であるEAP-IGの系統的安定性解析を行う。
論文 参考訳(メタデータ) (2025-10-01T12:55:34Z) - Evaluating the stability of model explanations in instance-dependent cost-sensitive credit scoring [0.45880283710344055]
インスタンス依存コストセンシティブ(IDCS)分類器は、クレジットスコアリングにおけるコスト効率を改善するための有望なアプローチを提供する。
このような損失関数がモデル説明の安定性に与える影響は、文献では未解明のままである。
論文 参考訳(メタデータ) (2025-09-01T12:05:59Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。