論文の概要: Evaluating Neuron Explanations: A Unified Framework with Sanity Checks
- arxiv url: http://arxiv.org/abs/2506.05774v1
- Date: Fri, 06 Jun 2025 06:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.344762
- Title: Evaluating Neuron Explanations: A Unified Framework with Sanity Checks
- Title(参考訳): ニューロン説明の評価: 健全性チェックを備えた統一フレームワーク
- Authors: Tuomas Oikarinen, Ge Yan, Tsui-Wei Weng,
- Abstract要約: 本研究では,1つの数学的枠組みの下で,既存の多くの説明評価手法を統合する。
多くの一般的なメトリクスが正当性チェックに失敗し、概念ラベルに大きな変更を加えてスコアを変更しないことを示す。
本結果に基づいて,今後の評価基準を追従し,信頼性評価指標の集合を同定するガイドラインを提案する。
- 参考スコア(独自算出の注目度): 15.838061203274897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the function of individual units in a neural network is an important building block for mechanistic interpretability. This is often done by generating a simple text explanation of the behavior of individual neurons or units. For these explanations to be useful, we must understand how reliable and truthful they are. In this work we unify many existing explanation evaluation methods under one mathematical framework. This allows us to compare existing evaluation metrics, understand the evaluation pipeline with increased clarity and apply existing statistical methods on the evaluation. In addition, we propose two simple sanity checks on the evaluation metrics and show that many commonly used metrics fail these tests and do not change their score after massive changes to the concept labels. Based on our experimental and theoretical results, we propose guidelines that future evaluations should follow and identify a set of reliable evaluation metrics.
- Abstract(参考訳): ニューラルネットワークにおける個々のユニットの機能を理解することは、機械的解釈可能性にとって重要なビルディングブロックである。
これは、個々のニューロンや単位の振る舞いを簡単なテキストで説明することでしばしば行われる。
これらの説明が有用であるためには、それらがどれほど信頼され、真実であるかを理解する必要がある。
本研究では,1つの数学的枠組みの下で,既存の多くの説明評価手法を統合する。
これにより、既存の評価指標を比較し、評価パイプラインを明確化して理解し、評価に既存の統計的手法を適用することができる。
さらに,評価指標の簡易な正当性チェックを2つ提案し,多くの一般的なメトリクスがこれらのテストに失敗し,概念ラベルに大きな変更を加えてもスコアが変更されないことを示す。
実験および理論的結果に基づいて,今後の評価は信頼性のある評価指標のセットに従わなければならないというガイドラインを提案する。
関連論文リスト
- On The Coherence of Quantitative Evaluation of Visual Explanations [0.7212939068975619]
視覚的説明の「良さ」を評価するための評価手法が提案されている。
我々はImageNet-1k検証セットのサブセットについて検討し、多くの一般的な説明手法を評価した。
本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T13:41:57Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。