論文の概要: CE-Bench: Towards a Reliable Contrastive Evaluation Benchmark of Interpretability of Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2509.00691v2
- Date: Sat, 27 Sep 2025 04:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.77204
- Title: CE-Bench: Towards a Reliable Contrastive Evaluation Benchmark of Interpretability of Sparse Autoencoders
- Title(参考訳): CE-Bench:スパースオートエンコーダの解釈可能性ベンチマークの信頼性評価に向けて
- Authors: Alex Gulko, Yusen Peng, Sachin Kumar,
- Abstract要約: 本稿では,スパースオートエンコーダの新規かつ軽量なコントラスト評価ベンチマークであるCE-Benchを紹介する。
その結果、CE-Benchはスパースオートエンコーダの解釈可能性を確実に測定し、既存のベンチマークとよく一致していることがわかった。
- 参考スコア(独自算出の注目度): 3.9305676875824473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a promising approach for uncovering interpretable features in large language models (LLMs). While several automated evaluation methods exist for SAEs, most rely on external LLMs. In this work, we introduce CE-Bench, a novel and lightweight contrastive evaluation benchmark for sparse autoencoders, built on a curated dataset of contrastive story pairs. We conduct comprehensive evaluation studies to validate the effectiveness of our approach. Our results show that CE-Bench reliably measures the interpretability of sparse autoencoders and aligns well with existing benchmarks without requiring an external LLM judge, achieving over 70% Spearman correlation with results in SAEBench. The official implementation and evaluation dataset are open-sourced and publicly available.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は,大規模言語モデル(LLM)における解釈可能な特徴を明らかにするための,有望なアプローチである。
SAEにはいくつかの自動評価手法が存在するが、そのほとんどは外部LLMに依存している。
本研究では,コントラスト付きストーリーペアのキュレートしたデータセット上に構築された,スパースオートエンコーダの新規かつ軽量なコントラスト評価ベンチマークであるCE-Benchを紹介する。
提案手法の有効性を検証するための総合的な評価研究を行っている。
その結果、CE-Benchはスパースオートエンコーダの解釈可能性を確実に測定し、外部LLM判定を必要とせずに既存のベンチマークと整合し、SAEBenchの結果とスピアマン相関を70%以上達成していることがわかった。
公式実装と評価データセットはオープンソースで公開されています。
関連論文リスト
- Benchmarking and Studying the LLM-based Code Review [34.93646390349726]
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
論文 参考訳(メタデータ) (2025-09-01T14:13:34Z) - Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees [36.407171992845456]
モデル評価における有限サンプル信頼性を保証する新しいフレームワークである textttR-AutoEval+ を提案する。
textttR-AutoEval+の重要な革新は、モデル評価変数の適応的な構成であり、合成データへの依存を動的に調整する。
論文 参考訳(メタデータ) (2025-05-24T11:53:29Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - RobustX: Robust Counterfactual Explanations Made Easy [4.875355171029671]
本稿では,オープンソースのPythonライブラリであるRobustXについて紹介する。
既存のメソッドのインターフェースを提供し、最先端技術への合理化を可能にする。
論文 参考訳(メタデータ) (2025-02-19T14:12:01Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Provably Robust and Plausible Counterfactual Explanations for Neural Networks via Robust Optimisation [19.065904250532995]
PROPLACE(Provably RObust and PLAUSible Counterfactual Explanations)を提案する。
証明可能な堅牢なCEを計算し、その収束性、健全性、完全性を証明するための反復アルゴリズムを定式化する。
ProPLACEは,3つの評価点において,計測値に対する最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:12:09Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。