論文の概要: ScoresActivation: A New Activation Function for Model Agnostic Global Explainability by Design
- arxiv url: http://arxiv.org/abs/2511.13809v1
- Date: Mon, 17 Nov 2025 18:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.742846
- Title: ScoresActivation: A New Activation Function for Model Agnostic Global Explainability by Design
- Title(参考訳): ScoresActivation: 設計によるモデル非依存的グローバル説明可能性のための新しいアクティベーション機能
- Authors: Emanuel Covaci, Fabian Galis, Radu Balan, Daniela Zaharie, Darian Onchis,
- Abstract要約: デザインによるグローバルな説明可能性に対する新たな差別化可能なアプローチを導入する。
特徴重要度推定を直接モデルトレーニングに統合する。
提案手法は, SHAP値と地道的特徴重要度に整合した, グローバルに忠実で安定した特徴ランクを導出する。
- 参考スコア(独自算出の注目度): 0.815557531820863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the decision of large deep learning models is a critical challenge for building transparent and trustworthy systems. Although the current post hoc explanation methods offer valuable insights into feature importance, they are inherently disconnected from the model training process, limiting their faithfulness and utility. In this work, we introduce a novel differentiable approach to global explainability by design, integrating feature importance estimation directly into model training. Central to our method is the ScoresActivation function, a feature-ranking mechanism embedded within the learning pipeline. This integration enables models to prioritize features according to their contribution to predictive performance in a differentiable and end-to-end trainable manner. Evaluations across benchmark datasets show that our approach yields globally faithful, stable feature rankings aligned with SHAP values and ground-truth feature importance, while maintaining high predictive performance. Moreover, feature scoring is 150 times faster than the classical SHAP method, requiring only 2 seconds during training compared to SHAP's 300 seconds for feature ranking in the same configuration. Our method also improves classification accuracy by 11.24% with 10 features (5 relevant) and 29.33% with 16 features (5 relevant, 11 irrelevant), demonstrating robustness to irrelevant inputs. This work bridges the gap between model accuracy and interpretability, offering a scalable framework for inherently explainable machine learning.
- Abstract(参考訳): 大規模ディープラーニングモデルの決定を理解することは、透明で信頼性の高いシステムを構築する上で重要な課題である。
現在のポストホックな説明手法は、機能の重要性に関する貴重な洞察を提供するが、それらは本質的にモデルトレーニングプロセスから切り離され、その忠実さと実用性を制限する。
本研究では,デザインによるグローバルな説明可能性に対する新たな差別化可能なアプローチを導入し,特徴量推定を直接モデルトレーニングに統合する。
私たちの方法の中心は、学習パイプラインに埋め込まれた機能レベルのメカニズムであるScoresActivation関数です。
この統合により、モデルは予測パフォーマンスへの貢献に応じて、異なるエンドツーエンドのトレーニング可能な方法でフィーチャを優先順位付けできる。
ベンチマークデータセットによる評価では,高い予測性能を維持しつつ,SHAP値と地道的特徴重要度に整合した,グローバルに忠実で安定した特徴ランクが得られた。
さらに、特徴スコアリングは古典的なSHAP法よりも150倍速く、同じ構成で特徴ランク付けするSHAPの300秒に比べ、トレーニング中に2秒しか必要としない。
また,10種類の特徴(5つの関連性)で11.24%,16種類の特徴(5つの関連性,11の関連性)で29.33%の分類精度を向上し,無関係な入力に対して堅牢性を示す。
この作業は、モデル精度と解釈可能性のギャップを埋め、本質的に説明可能な機械学習のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - FORCE: Feature-Oriented Representation with Clustering and Explanation [0.0]
SHAPに基づく教師付きディープラーニングフレームワークForceを提案する。
ニューラルネットワークアーキテクチャにおけるSHAP値の2段階の使用に依存している。
我々はForceが潜在機能とアテンションフレームワークを組み込まないネットワークと比較して、全体的なパフォーマンスを劇的に改善したことを示す。
論文 参考訳(メタデータ) (2025-04-07T22:05:50Z) - Iterative Feature Boosting for Explainable Speech Emotion Recognition [17.568724398229232]
本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。
特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。
提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。
論文 参考訳(メタデータ) (2024-05-30T15:44:27Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。