論文の概要: MIB: A Mechanistic Interpretability Benchmark
- arxiv url: http://arxiv.org/abs/2504.13151v1
- Date: Thu, 17 Apr 2025 17:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:27.663477
- Title: MIB: A Mechanistic Interpretability Benchmark
- Title(参考訳): MIB: 機械的解釈可能性ベンチマーク
- Authors: Aaron Mueller, Atticus Geiger, Sarah Wiegreffe, Dana Arad, Iván Arcuschin, Adam Belfki, Yik Siu Chan, Jaden Fiotto-Kaufman, Tal Haklay, Michael Hanna, Jing Huang, Rohan Gupta, Yaniv Nikankin, Hadas Orgad, Nikhil Prakash, Anja Reusch, Aruna Sankaranarayanan, Shun Shao, Alessandro Stolfo, Martin Tutek, Amir Zur, David Bau, Yonatan Belinkov,
- Abstract要約: 4つのタスクと5つのモデルにまたがる2トラックのベンチマークであるMIBを提案する。
MIBを用いて、帰属とマスク最適化の手法が回路のローカライゼーションにおいて最適であることがわかった。
因果変数の局在化では、教師付きDAS法がニューロンより優れているが、SAEの特徴はニューロンより優れている。
- 参考スコア(独自算出の注目度): 77.35046700898326
- License:
- Abstract: How can we know whether new mechanistic interpretability methods achieve real improvements? In pursuit of meaningful and lasting evaluation standards, we propose MIB, a benchmark with two tracks spanning four tasks and five models. MIB favors methods that precisely and concisely recover relevant causal pathways or specific causal variables in neural language models. The circuit localization track compares methods that locate the model components - and connections between them - most important for performing a task (e.g., attribution patching or information flow routes). The causal variable localization track compares methods that featurize a hidden vector, e.g., sparse autoencoders (SAEs) or distributed alignment search (DAS), and locate model features for a causal variable relevant to the task. Using MIB, we find that attribution and mask optimization methods perform best on circuit localization. For causal variable localization, we find that the supervised DAS method performs best, while SAE features are not better than neurons, i.e., standard dimensions of hidden vectors. These findings illustrate that MIB enables meaningful comparisons of methods, and increases our confidence that there has been real progress in the field.
- Abstract(参考訳): 新しい機械的解釈可能性法が真に改善するかどうか、どうすればわかるのか?
4つのタスクと5つのモデルにまたがる2トラックのベンチマークであるMIBを提案する。
MIBは、ニューラルネットワークモデルにおいて、関連する因果経路または特定の因果変数を正確かつ簡潔に回収する手法を好んでいる。
回路ローカライゼーショントラックは、タスクを実行する上で最も重要な(例えば、帰属パッチや情報フロールート)モデルコンポーネントとそれらの間の接続を特定する方法を比較する。
因果変数のローカライゼーショントラックは、隠れベクター、例えばスパースオートエンコーダ(SAE)や分散アライメントサーチ(DAS)を比較し、タスクに関連する因果変数のモデル特徴を特定する。
MIBを用いて、帰属とマスク最適化の手法が回路のローカライゼーションにおいて最適であることがわかった。
因果変数の局在化では、教師付きDAS法が最善であるのに対して、SAEの特徴はニューロン、すなわち隠れベクトルの標準次元よりも優れている。
これらの結果は,MIBがメソッドの有意義な比較を可能にすることを示し,この分野に真の進歩があるという自信を高めた。
関連論文リスト
- AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - MuyGPs: Scalable Gaussian Process Hyperparameter Estimation Using Local
Cross-Validation [1.2233362977312945]
本稿では,新しいGPハイパーパラメータ推定法であるMuyGPを提案する。
MuyGPsは、データの最も近い隣人構造を利用する事前のメソッドの上に構築される。
提案手法は, 解法と予測値の平均二乗誤差の両方において, 既知の競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-29T18:10:21Z) - MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。
MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。
我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文 参考訳(メタデータ) (2021-04-21T16:50:01Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。