論文の概要: Evaluating SAE interpretability without explanations
- arxiv url: http://arxiv.org/abs/2507.08473v1
- Date: Fri, 11 Jul 2025 10:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.324083
- Title: Evaluating SAE interpretability without explanations
- Title(参考訳): 説明のないSAE解釈可能性の評価
- Authors: Gonçalo Paulo, Nora Belrose,
- Abstract要約: 我々は,スパースコーダの解釈可能性を評価するために,既存の手法を適用した。
解釈可能性の指標から得られたスコアと、類似したタスクや様々な設定の人的評価を比較し、これらの手法の評価を改善するためのコミュニティの提案を行う。
- 参考スコア(独自算出の注目度): 0.7234862895932991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) and transcoders have become important tools for machine learning interpretability. However, measuring how interpretable they are remains challenging, with weak consensus about which benchmarks to use. Most evaluation procedures start by producing a single-sentence explanation for each latent. These explanations are then evaluated based on how well they enable an LLM to predict the activation of a latent in new contexts. This method makes it difficult to disentangle the explanation generation and evaluation process from the actual interpretability of the latents discovered. In this work, we adapt existing methods to assess the interpretability of sparse coders, with the advantage that they do not require generating natural language explanations as an intermediate step. This enables a more direct and potentially standardized assessment of interpretability. Furthermore, we compare the scores produced by our interpretability metrics with human evaluations across similar tasks and varying setups, offering suggestions for the community on improving the evaluation of these techniques.
- Abstract(参考訳): スパースオートエンコーダ(SAE)とトランスコーダは、機械学習の解釈可能性にとって重要なツールとなっている。
しかし、それらがどのように解釈されるかを測定することは依然として困難であり、どのベンチマークを使うべきかについてのコンセンサスが弱い。
ほとんどの評価手順は、各潜伏者に対して単文説明を作成することから始まる。
これらの説明は、LLMが新しい文脈における潜伏者の活性化をいかに予測できるかに基づいて評価される。
本手法は, 検出した潜伏者の実際の解釈可能性から説明生成と評価プロセスを切り離すことを困難にしている。
本研究では,スパースコーダの解釈可能性を評価するために,既存の手法を適用した。
これにより、解釈可能性のより直接的な、潜在的に標準化された評価が可能になる。
さらに,解釈可能性の指標から得られたスコアと,類似したタスクや様々な設定の人的評価を比較し,これらの手法の評価を改善するためのコミュニティの提案を行った。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - The Generalizability of Explanations [0.0]
本研究は,一般化可能性の観点から,新しい評価手法を提案する。
自動エンコーダを用いて,生成した説明文の分布を学習し,その学習可能性と,学習された分布特徴の妥当性を観察する。
論文 参考訳(メタデータ) (2023-02-23T12:25:59Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Evaluation and Improvement of Interpretability for Self-Explainable
Part-Prototype Networks [43.821442711496154]
パートプロトタイプネットワークは、固有の解釈可能性と非解釈可能ネットワークと同等の精度で、幅広い研究の関心を集めている。
本研究は,パートプロトタイプネットワークの解釈可能性について定量的かつ客観的に評価する試みである。
本研究では, 浅層深度特徴アライメントモジュールとスコアアグリゲーションモジュールを備えた高精細な部分プロトタイプネットワークを提案し, プロトタイプの解釈性を向上させる。
論文 参考訳(メタデータ) (2022-12-12T14:59:11Z) - Towards Human-Centred Explainability Benchmarks For Text Classification [4.393754160527062]
本稿では,テキスト分類の妥当性を評価するために,テキスト分類ベンチマークを拡張することを提案する。
有効な説明を行う能力について客観的に評価する上での課題について検討する。
我々は、これらのベンチマークを人間中心のアプリケーションに基礎を置くことを提案する。
論文 参考訳(メタデータ) (2022-11-10T09:52:31Z) - A Fine-grained Interpretability Evaluation Benchmark for Neural NLP [44.08113828762984]
このベンチマークでは、感情分析、テキスト類似性、読解の3つのNLPタスクをカバーしている。
十分にコンパクトで包括的に注釈付けされたトークンレベルの合理性を提供します。
3つのサリエンシ手法を用いた3つの典型的なモデルについて実験を行い、その強度と弱さを解釈可能性の観点から明らかにした。
論文 参考訳(メタデータ) (2022-05-23T07:37:04Z) - Evaluation of post-hoc interpretability methods in time-series classification [0.6249768559720122]
本稿では,既存のポストホック解釈可能性法の性能を評価するために,定量的な指標を用いたフレームワークを提案する。
文献で確認されたいくつかの欠点、すなわち、人間の判断、再訓練、サンプルを除外する際のデータ分布の変化に対処できることが示される。
提案手法と定量的なメトリクスを用いて,実践的な応用で得られた解釈可能性手法の信頼性を理解することができる。
論文 参考訳(メタデータ) (2022-02-11T14:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。