論文の概要: Hidden Conflicts in Neural Networks and Their Implications for Explainability
- arxiv url: http://arxiv.org/abs/2310.20363v2
- Date: Sat, 31 May 2025 09:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.765759
- Title: Hidden Conflicts in Neural Networks and Their Implications for Explainability
- Title(参考訳): ニューラルネットワークにおける隠れた衝突とその説明可能性への影響
- Authors: Adam Dejl, Dekai Zhang, Hamed Ayoobi, Matthew Williams, Francesca Toni,
- Abstract要約: 我々は、ANNにおける対立の理論を開発し、2つのケーススタディを通して、ANNの説明可能性への影響を実証する。
最初のケーススタディでは、コンフリクトの理論を用いて、新しい特徴帰属法の設計を刺激する。
第2のケーススタディでは、アウト・オブ・ディストリビューションシナリオにおけるコンフリクトの役割を理解するための予備的なステップを採っている。
- 参考スコア(独自算出の注目度): 10.6042677656006
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Artificial Neural Networks (ANNs) often represent conflicts between features, arising naturally during training as the network learns to integrate diverse and potentially disagreeing inputs to better predict the target variable. Despite their relevance to the ``reasoning'' processes of these models, the properties and implications of conflicts for understanding and explaining ANNs remain underexplored. In this paper, we develop a rigorous theory of conflicts in ANNs and demonstrate their impact on ANN explainability through two case studies. In the first case study, we use our theory of conflicts to inspire the design of a novel feature attribution method, which we call Conflict-Aware Feature-wise Explanations (CAFE). CAFE separates the positive and negative influences of features and biases, enabling more faithful explanations for models applied to tabular data. In the second case study, we take preliminary steps towards understanding the role of conflicts in out-of-distribution (OOD) scenarios. Through our experiments, we identify potentially useful connections between model conflicts and different kinds of distributional shifts in tabular and image data. Overall, our findings demonstrate the importance of accounting for conflicts in the development of more reliable explanation methods for AI systems, which are crucial for the beneficial use of these systems in the society.
- Abstract(参考訳): ニューラルネットワーク(Artificial Neural Networks, ANN)は、トレーニング中に自然に発生する機能間の衝突を表現する。
これらのモデルの 'reasoning' プロセスに関係しているにもかかわらず、ANNの理解と説明のための競合の性質と意味は未解明のままである。
本稿では、ANNにおける対立の厳密な理論を開発し、2つのケーススタディを通して、ANNの説明可能性への影響を実証する。
第1のケーススタディでは、コンフリクトの理論を用いて、新しい特徴帰属法の設計を刺激する。
CAFEは、特徴とバイアスの正と負の影響を分離し、表データに適用されたモデルに対するより忠実な説明を可能にする。
第2のケーススタディでは、アウト・オブ・ディストリビューション(OOD)シナリオにおけるコンフリクトの役割を理解するための予備的なステップを採っている。
実験により,表と画像データにおけるモデル競合と異なる種類の分布シフトとの間の潜在的に有用な関係を同定した。
全体として、社会におけるこれらのシステムの有用性に欠かせない、より信頼性の高いAIシステム説明手法の開発において、コンフリクトを考慮することが重要であることを示す。
関連論文リスト
- Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Disentangle Estimation of Causal Effects from Cross-Silo Data [14.684584362172666]
本稿では,モデルパラメータのシームレスなクロスサイロ伝送を容易にするために設計された,革新的なアンタングルアーキテクチャを提案する。
種々の欠落領域におけるバイアスを効果的に緩和するために,グローバルな制約を方程式に導入する。
我々の手法は最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-01-04T09:05:37Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Decomposing Global Feature Effects Based on Feature Interactions [10.874932625841257]
グローバルエフェクトの一般化付加分解(GADGET)は特徴空間の解釈可能な領域を見つけるための新しいフレームワークである。
フレームワークの数学的基盤を提供し、限界特徴効果を可視化する最も一般的な手法に適用可能であることを示す。
提案手法の理論的特性を,異なる実験環境における様々な特徴効果法に基づいて実験的に評価した。
論文 参考訳(メタデータ) (2023-06-01T10:51:12Z) - Learning Infomax and Domain-Independent Representations for Causal
Effect Inference with Real-World Data [9.601837205635686]
上記の問題を解くためにInfomaxとDomain-Independent Representationsを学習する。
提案手法は,因果関係の推論における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-22T13:35:15Z) - Bringing a Ruler Into the Black Box: Uncovering Feature Impact from
Individual Conditional Expectation Plots [0.0]
本稿では,ICEプロットから抽出したモデル非依存,性能非依存の特徴影響指標を提案する。
また,ディストリビューション点の影響を変動させるために,ICE特徴量の影響の分布内変異を導入する。
実世界のデータを用いて,ICE機能の効果をいくつかのタスクで実証する。
論文 参考訳(メタデータ) (2021-09-06T20:26:29Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Demarcating Endogenous and Exogenous Opinion Dynamics: An Experimental
Design Approach [27.975266406080152]
本稿では,実験的な設計手法に基づく教師なし分類手法のスイートを設計する。
平均推定誤差の異なる測度を最小化するイベントのサブセットを選択することを目的としている。
我々の実験は、不衛生事象や衛生事象に対する予測性能の検証から、様々な大きさの最適なサブセットを選択する効果の検証まで多岐にわたる。
論文 参考訳(メタデータ) (2021-02-11T11:38:15Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。