論文の概要: Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Transformers
- arxiv url: http://arxiv.org/abs/2410.21815v2
- Date: Tue, 25 Feb 2025 01:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:26.464010
- Title: Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Transformers
- Title(参考訳): Gnothi Seauton: ブラックボックス変換器における忠実自己解釈能力の強化
- Authors: Shaobo Wang, Hongxuan Tang, Mingyang Wang, Hongrui Zhang, Xuyang Liu, Weiya Li, Xuming Hu, Linfeng Zhang,
- Abstract要約: 概念に基づくネットワークのような自己解釈型モデルは、決定を人間の理解可能な概念に結びつけることによって洞察を与える。
シャプリー値のようなポストホック法は理論的には堅牢であるが、計算コストが高く、資源集約的である。
ブラックボックスモデルに対する理論的に保証された自己解釈性を提供する。
- 参考スコア(独自算出の注目度): 21.698201509643624
- License:
- Abstract: The debate between self-interpretable models and post-hoc explanations for black-box models is central to Explainable AI (XAI). Self-interpretable models, such as concept-based networks, offer insights by connecting decisions to human-understandable concepts but often struggle with performance and scalability. Conversely, post-hoc methods like Shapley values, while theoretically robust, are computationally expensive and resource-intensive. To bridge the gap between these two lines of research, we propose a novel method that combines their strengths, providing theoretically guaranteed self-interpretability for black-box models without compromising prediction accuracy. Specifically, we introduce a parameter-efficient pipeline, AutoGnothi, which integrates a small side network into the black-box model, allowing it to generate Shapley value explanations without changing the original network parameters. This side-tuning approach significantly reduces memory, training, and inference costs, outperforming traditional parameter-efficient methods, where full fine-tuning serves as the optimal baseline. AutoGnothi enables the black-box model to predict and explain its predictions with minimal overhead. Extensive experiments show that AutoGnothi offers accurate explanations for both vision and language tasks, delivering superior computational efficiency with comparable interpretability.
- Abstract(参考訳): ブラックボックスモデルに対する自己解釈モデルとポストホックな説明の議論は、説明可能なAI(XAI)の中心である。
概念ベースのネットワークのような自己解釈可能なモデルは、人間の理解可能な概念と決定を結びつけることによって洞察を提供するが、しばしば性能と拡張性に苦しむ。
逆に、Shapley値のようなポストホック法は理論的には堅牢であるが、計算コストが高く、リソース集約的である。
これら2つの研究のギャップを埋めるため,理論上は予測精度を損なうことなく,ブラックボックスモデルに対する自己解釈性を保証できる新しい手法を提案する。
具体的には、パラメータ効率のよいパイプラインAutoGnothiを導入し、小さなサイドネットワークをブラックボックスモデルに統合し、元のネットワークパラメータを変更することなくShapley値の説明を生成する。
このサイドチューニングアプローチは、メモリ、トレーニング、推論コストを大幅に削減し、完全な微調整が最適なベースラインとなる従来のパラメータ効率の手法より優れている。
AutoGnothiはブラックボックスモデルを最小限のオーバーヘッドで予測と説明を可能にする。
大規模な実験により、AutoGnothiは視覚と言語の両方のタスクに対して正確な説明を提供し、同等の解釈可能性を持つ優れた計算効率を提供することが示された。
関連論文リスト
- DISCRET: Synthesizing Faithful Explanations For Treatment Effect Estimation [21.172795461188578]
我々は,各サンプルに対して忠実で規則に基づく説明を合成する自己解釈型ITTフレームワークdisCRETを提案する。
DISCRETの背景にある重要な洞察は、説明が2つのデータベースクエリとして機能し、類似したサンプルのサブグループを識別できるということである。
大規模な探索空間からこれらの説明を効率的に合成する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-02T04:01:08Z) - Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [8.391254800873599]
本稿では,設計によって解釈できない事前学習型ニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。
我々は、インターベンタビリティの概念を概念に基づく介入の有効性の尺度として定式化し、この定義を微調整ブラックボックスに活用する。
論文 参考訳(メタデータ) (2024-01-24T16:02:14Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability [29.459228981179674]
ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:06:02Z) - Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward
Trustworthy Estimation of Theory-Driven Models [88.63781315038824]
本稿では,ニューラルネットワークのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T10:42:26Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern
Classification [0.0]
構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。
本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。
解釈可能なモデルでは,最先端の白黒ボックスと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-07-07T18:14:50Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。