論文の概要: Rethinking Crowd-Sourced Evaluation of Neuron Explanations
- arxiv url: http://arxiv.org/abs/2506.07985v1
- Date: Mon, 09 Jun 2025 17:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.096695
- Title: Rethinking Crowd-Sourced Evaluation of Neuron Explanations
- Title(参考訳): ニューロン説明のクラウドソース評価の再考
- Authors: Tuomas Oikarinen, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng,
- Abstract要約: 低コストで高精度なクラウドソース評価戦略を開発する。
すべての入力でニューロンの活性化が説明できるかどうかを推定する。
また,クラウドソース評価におけるラベルノイズの分析を行った。
- 参考スコア(独自算出の注目度): 14.588031207282718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting individual neurons or directions in activations space is an important component of mechanistic interpretability. As such, many algorithms have been proposed to automatically produce neuron explanations, but it is often not clear how reliable these explanations are, or which methods produce the best explanations. This can be measured via crowd-sourced evaluations, but they can often be noisy and expensive, leading to unreliable results. In this paper, we carefully analyze the evaluation pipeline and develop a cost-effective and highly accurate crowdsourced evaluation strategy. In contrast to previous human studies that only rate whether the explanation matches the most highly activating inputs, we estimate whether the explanation describes neuron activations across all inputs. To estimate this effectively, we introduce a novel application of importance sampling to determine which inputs are the most valuable to show to raters, leading to around 30x cost reduction compared to uniform sampling. We also analyze the label noise present in crowd-sourced evaluations and propose a Bayesian method to aggregate multiple ratings leading to a further ~5x reduction in number of ratings required for the same accuracy. Finally, we use these methods to conduct a large-scale study comparing the quality of neuron explanations produced by the most popular methods for two different vision models.
- Abstract(参考訳): 活性化空間における個々のニューロンや方向の解釈は、機械的解釈可能性の重要な構成要素である。
そのため、ニューロンの説明を自動生成するアルゴリズムが多数提案されているが、これらの説明がどの程度信頼できるか、どの方法が最良の説明を生成するのかはよく分かっていない。
これはクラウドソースによる評価によって測定できるが、ノイズが多く高価な場合が多く、信頼性の低い結果につながる。
本稿では,評価パイプラインを慎重に分析し,低コストで高精度なクラウドソース評価戦略を開発する。
従来のヒトの研究では、説明が最も活発な入力と一致しているかどうかのみを評価できたのに対し、説明が全ての入力にまたがるニューロンの活性化を説明するかどうかを推定した。
これを効果的に評価するために,重要サンプリングの新たな適用法を導入し,どの入力がラッカーに最も価値があるかを判定し,一様サンプリングと比較して約30倍のコスト削減を実現した。
また,クラウドソース評価におけるラベルノイズを解析し,複数のレーティングを集約するベイズ手法を提案する。
最後に、これらの手法を用いて、2つの異なる視覚モデルに対して最も一般的な方法によって生成されるニューロンの説明の質を比較した大規模な研究を行う。
関連論文リスト
- Revisiting Large Language Model Pruning using Neuron Semantic Attribution [63.62836612864512]
人気プルーニング手法を用いて,24のデータセットと4つのタスクの評価を行った。
感情分類タスクでは,既存のプルーニング手法の大幅な性能低下がみられた。
本稿では,各ニューロンと特定の意味論を関連づけることを学ぶニューロン意味属性を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:52:17Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - Evaluating Saliency Explanations in NLP by Crowdsourcing [25.763227978763908]
クラウドソーシングによるNLPのサリエンシ評価手法を提案する。
我々は,800名のクラウドワーカーを募集し,提案手法を用いて2つのデータセット上で7つのサリエンシ手法を実証的に評価した。
本研究では,サリエンシ法の性能を解析し,既存の自動評価法と比較し,サリエンシ法を用いた場合のNLPとコンピュータビジョン(CV)フィールドの顕著な差異を明らかにした。
論文 参考訳(メタデータ) (2024-05-17T13:27:45Z) - The Generalizability of Explanations [0.0]
本研究は,一般化可能性の観点から,新しい評価手法を提案する。
自動エンコーダを用いて,生成した説明文の分布を学習し,その学習可能性と,学習された分布特徴の妥当性を観察する。
論文 参考訳(メタデータ) (2023-02-23T12:25:59Z) - Evaluating Neuron Interpretation Methods of NLP Models [28.71369775524347]
本稿では,ニューロン解析法と他の手法との整合性を評価する評価フレームワークを提案する。
本稿では,大きなニューロン解釈法の比較分析を行った。
これにより、20のコンセプトと3つの事前学習モデルを用いた新しい手法の評価が可能になる。
論文 参考訳(メタデータ) (2023-01-30T02:04:35Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Decoding Methods for Neural Narrative Generation [74.37264021226308]
ナラティブ生成(英: Narrative generation)とは、モデルがプロンプトを与えられたストーリーを生成するオープンエンドのNLPタスクである。
ニューラル・ナラティブ・ジェネレーションに対するニューラル・レスポンス・ジェネレーションのためのデコード手法の適用と評価を行った。
論文 参考訳(メタデータ) (2020-10-14T19:32:56Z) - Measuring and improving the quality of visual explanations [1.0062187787765149]
本稿では,ニューラルネットワークにおける様々な情報源から抽出される視覚的説明について検討する。
我々はこれらの情報源を組み合わせる利点を定量化し、バイアスパラメータを考慮に入れた最近の魅力に挑戦する。
論文 参考訳(メタデータ) (2020-03-14T00:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。