論文の概要: Findings of the BlackboxNLP 2025 Shared Task: Localizing Circuits and Causal Variables in Language Models
- arxiv url: http://arxiv.org/abs/2511.18409v1
- Date: Sun, 23 Nov 2025 11:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.826012
- Title: Findings of the BlackboxNLP 2025 Shared Task: Localizing Circuits and Causal Variables in Language Models
- Title(参考訳): BlackboxNLP 2025共有タスクの発見:言語モデルにおける回路の局在化と因果変数
- Authors: Dana Arad, Yonatan Belinkov, Hanjie Chen, Najoung Kim, Hosein Mohebbi, Aaron Mueller, Gabriele Sarti, Martin Tutek,
- Abstract要約: 機械的解釈可能性(MI)は、言語モデル(LM)が特定の振る舞いをどのように実装するかを明らかにする。
最近リリースされたMechanistic Interpretability Benchmark (MIB)は、回路と因果変数のローカライゼーションを評価するためのフレームワークを提供する。
BlackboxNLP 2025 Shared TaskはMIBを拡張し、MIテクニックのコミュニティ全体で再現可能な比較を行う。
- 参考スコア(独自算出の注目度): 56.73385658981886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability (MI) seeks to uncover how language models (LMs) implement specific behaviors, yet measuring progress in MI remains challenging. The recently released Mechanistic Interpretability Benchmark (MIB; Mueller et al., 2025) provides a standardized framework for evaluating circuit and causal variable localization. Building on this foundation, the BlackboxNLP 2025 Shared Task extends MIB into a community-wide reproducible comparison of MI techniques. The shared task features two tracks: circuit localization, which assesses methods that identify causally influential components and interactions driving model behavior, and causal variable localization, which evaluates approaches that map activations into interpretable features. With three teams spanning eight different methods, participants achieved notable gains in circuit localization using ensemble and regularization strategies for circuit discovery. With one team spanning two methods, participants achieved significant gains in causal variable localization using low-dimensional and non-linear projections to featurize activation vectors. The MIB leaderboard remains open; we encourage continued work in this standard evaluation framework to measure progress in MI research going forward.
- Abstract(参考訳): 機械的解釈可能性(MI)は、言語モデル(LM)が特定の振る舞いをどのように実装するかを明らかにすることを目指しているが、MIの進歩を測定することは依然として難しい。
最近リリースされたMechanistic Interpretability Benchmark (MIB; Mueller et al , 2025)は、回路と因果変数のローカライゼーションを評価するための標準化されたフレームワークを提供する。
この基盤の上に構築されたBlackboxNLP 2025 Shared Taskは、MIBをコミュニティ全体のMIテクニックの再現可能な比較に拡張する。
共有タスクには2つのトラックがある: 回路のローカライゼーション - 因果的影響のあるコンポーネントを識別する手法とモデル動作を駆動するインタラクションを評価する方法、因果的変数ローカライゼーション - アクティベーションを解釈可能な特徴にマッピングするアプローチを評価する。
3つのチームが8つの異なる手法にまたがって、参加者はアンサンブルと正規化戦略を用いて回路ローカライゼーションにおいて顕著な利益を得た。
1つのチームが2つの方法にまたがって、参加者は低次元および非線形射影を用いて因果変数の局在を著しく向上し、活性化ベクトルを破滅させる。
MIB のリーダーボードは引き続きオープンであり、今後のMI 研究の進展を評価するため、この標準評価フレームワークの継続的な開発を奨励します。
関連論文リスト
- BlackboxNLP-2025 MIB Shared Task: Exploring Ensemble Strategies for Circuit Localization Methods [64.5040037515574]
2つ以上の回路ローカライズ手法を組み込むことで性能が向上するかどうかを検討する。
並列アンサンブルでは、各エッジに割り当てられた属性スコアを異なる方法で組み合わせる。
逐次アンサンブルでは、EAP-IGを用いて得られたエッジ属性スコアを、より高価で高精度な回路識別法のためのウォームスタートとして使用する。
論文 参考訳(メタデータ) (2025-10-08T09:39:40Z) - MIB: A Mechanistic Interpretability Benchmark [77.35046700898326]
4つのタスクと5つのモデルにまたがる2つのトラックを持つメカニスティック解釈可能性ベンチマークMIBを提案する。
MIBを用いて、帰属とマスク最適化の手法が回路のローカライゼーションにおいて最適であることがわかった。
因果変数の局在化では、教師付きDAS法がニューロンより優れているが、SAEの特徴はニューロンより優れている。
論文 参考訳(メタデータ) (2025-04-17T17:55:45Z) - Interpreting Object-level Foundation Models via Visual Precision Search [54.575247537324344]
より少ない領域で正確な属性マップを生成する視覚的精度探索法を提案する。
本研究では,DINO と Florence-2 の SOTA に対するオブジェクトレベルのタスク解釈可能性の向上を,様々な評価指標で示す。
提案手法は,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
論文 参考訳(メタデータ) (2024-11-25T08:54:54Z) - Interactive incremental learning of generalizable skills with local trajectory modulation [14.416251854298409]
軌道分布の局所的および大域的変調を同時に活用するインタラクティブな模倣学習フレームワークを提案する。
提案手法では, インクリメンタルかつインタラクティブに, 1) モデル精度の向上, 2) 実行中のタスクに新しいオブジェクトの追加,3) デモが提供されていない領域にスキルを拡大する。
論文 参考訳(メタデータ) (2024-09-09T14:22:19Z) - Estimation of Reliable Proposal Quality for Temporal Action Detection [71.5989469643732]
提案手法では,時間的視点と地域的視点を同時に把握し,信頼性の高い提案品質を取得することによって2つの課題を整合させる手法を提案する。
バウンダリ評価モジュール (BEM) は, 境界品質を推定するために, 局所的な外観と動きの進化に焦点を当てた設計である。
地域の観点からは,提案する特徴表現に対して,新しい効率的なサンプリング手法を用いた領域評価モジュール(REM)を導入する。
論文 参考訳(メタデータ) (2022-04-25T14:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。