論文の概要: The Dead Salmons of AI Interpretability
- arxiv url: http://arxiv.org/abs/2512.18792v1
- Date: Sun, 21 Dec 2025 16:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.507696
- Title: The Dead Salmons of AI Interpretability
- Title(参考訳): AIの解釈可能性のデッドサーモン
- Authors: Maxime Méloux, Giada Dirupo, François Portet, Maxime Peyrard,
- Abstract要約: AIの解釈可能性では、同様の'デッド・サーモン'アーティファクトの報告が増えている。
我々は現実的な統計的因果リフレーミングを主張する。
- 参考スコア(独自算出の注目度): 9.722180905657268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a striking neuroscience study, the authors placed a dead salmon in an MRI scanner and showed it images of humans in social situations. Astonishingly, standard analyses of the time reported brain regions predictive of social emotions. The explanation, of course, was not supernatural cognition but a cautionary tale about misapplied statistical inference. In AI interpretability, reports of similar ''dead salmon'' artifacts abound: feature attribution, probing, sparse auto-encoding, and even causal analyses can produce plausible-looking explanations for randomly initialized neural networks. In this work, we examine this phenomenon and argue for a pragmatic statistical-causal reframing: explanations of computational systems should be treated as parameters of a (statistical) model, inferred from computational traces. This perspective goes beyond simply measuring statistical variability of explanations due to finite sampling of input data; interpretability methods become statistical estimators, and findings should be tested against explicit and meaningful alternative computational hypotheses, with uncertainty quantified with respect to the postulated statistical model. It also highlights important theoretical issues, such as the identifiability of common interpretability queries, which we argue is critical to understand the field's susceptibility to false discoveries, poor generalizability, and high variance. More broadly, situating interpretability within the standard toolkit of statistical inference opens promising avenues for future work aimed at turning AI interpretability into a pragmatic and rigorous science.
- Abstract(参考訳): 研究チームは、MRIスキャナーに死んだサケを配置し、社会状況における人間の画像を見せました。
驚くべきことに、当時の標準分析では、社会的感情を予測する脳領域が報告されていた。
その説明はもちろん、超自然的な認識ではなく、誤適用された統計的推論に関する注意深い物語だった。
AIの解釈可能性において、類似した'死のサルモン'アーティファクトの報告が多数存在する: 特徴属性、プローブ、スパースオートエンコーディング、さらには因果解析さえも、ランダムに初期化されたニューラルネットワークに対して、もっともらしい説明を生み出すことができる。
本研究では,この現象を考察し,現実的な統計・因果リフレーミングを論じる:計算システムの説明は,計算トレースから推定される(統計的)モデルのパラメータとして扱うべきである。
この観点は、入力データの有限サンプリングによる説明の統計的変動を単に測定する以上のものであり、解釈可能性法は統計的推定子となり、結果が仮定された統計モデルに関して不確実性のある明示的で有意義な代替的な計算仮説に対して検証されるべきである。
また、一般的な解釈可能性クエリの識別可能性などの重要な理論的問題も強調し、フィールドの誤検出に対する感受性、一般化性の低さ、高分散性などを理解することが重要であると論じている。
より広範に、統計的推論の標準ツールキットにおける解釈可能性の集中は、AIの解釈可能性を実用的で厳格な科学に変えることを目的とした将来の研究に有望な道を開く。
関連論文リスト
- Bayesian Networks for Causal Analysis in Socioecological Systems [0.3495246564946556]
因果推論と反事実推論は、データサイエンスにおいて新たな方向に向かっている。
本研究の主な貢献は,社会生態学システムの変数間の必要性と満足度の関係を分析することである。
特に,スペイン南部における社会経済的要因と土地利用に関する事例研究について考察する。
論文 参考訳(メタデータ) (2024-01-18T16:10:07Z) - Reliability and Interpretability in Science and Deep Learning [0.0]
この記事では、従来の科学的モデルとDeep Neural Network(DNN)モデルの比較に焦点を当てる。
DNNモデルの複雑さは、その信頼性と長期的進歩の予測を妨げていると論じている。
また、解釈可能性が、統計分析だけでは理解できないあらゆるモデルの信頼性を評価するための前提条件であることも明らかにした。
論文 参考訳(メタデータ) (2024-01-14T20:14:07Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - A Causal Framework for Decomposing Spurious Variations [68.12191782657437]
我々はマルコフモデルとセミマルコフモデルの急激な変分を分解するツールを開発する。
突発効果の非パラメトリック分解を可能にする最初の結果を証明する。
説明可能なAIや公平なAIから、疫学や医学における疑問まで、いくつかの応用がある。
論文 参考訳(メタデータ) (2023-06-08T09:40:28Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Enforcing Interpretability and its Statistical Impacts: Trade-offs
between Accuracy and Interpretability [30.501012698482423]
機械学習における解釈可能性の統計的コストに関する公式な研究は行われていない。
我々は、解釈可能な仮説の集合に対して経験的リスク最小化を行う行為として、解釈可能性を促進する行為をモデル化する。
我々は,解釈可能な分類器に対する制限が,過度な統計リスクの犠牲になる場合,正確性と解釈可能性の間のトレードオフを観察できるかどうかを事例分析により説明する。
論文 参考訳(メタデータ) (2020-10-26T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。