論文の概要: BlackboxNLP-2025 MIB Shared Task: Exploring Ensemble Strategies for Circuit Localization Methods
- arxiv url: http://arxiv.org/abs/2510.06811v1
- Date: Wed, 08 Oct 2025 09:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.392361
- Title: BlackboxNLP-2025 MIB Shared Task: Exploring Ensemble Strategies for Circuit Localization Methods
- Title(参考訳): BlackboxNLP-2025 MIB共有タスク:回路ローカライゼーションのためのアンサンブル戦略の探索
- Authors: Philipp Mondorf, Mingyang Wang, Sebastian Gerstner, Ahmad Dawar Hakimi, Yihong Liu, Leonor Veloso, Shijia Zhou, Hinrich Schütze, Barbara Plank,
- Abstract要約: 2つ以上の回路ローカライズ手法を組み込むことで性能が向上するかどうかを検討する。
並列アンサンブルでは、各エッジに割り当てられた属性スコアを異なる方法で組み合わせる。
逐次アンサンブルでは、EAP-IGを用いて得られたエッジ属性スコアを、より高価で高精度な回路識別法のためのウォームスタートとして使用する。
- 参考スコア(独自算出の注目度): 64.5040037515574
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Circuit Localization track of the Mechanistic Interpretability Benchmark (MIB) evaluates methods for localizing circuits within large language models (LLMs), i.e., subnetworks responsible for specific task behaviors. In this work, we investigate whether ensembling two or more circuit localization methods can improve performance. We explore two variants: parallel and sequential ensembling. In parallel ensembling, we combine attribution scores assigned to each edge by different methods-e.g., by averaging or taking the minimum or maximum value. In the sequential ensemble, we use edge attribution scores obtained via EAP-IG as a warm start for a more expensive but more precise circuit identification method, namely edge pruning. We observe that both approaches yield notable gains on the benchmark metrics, leading to a more precise circuit identification approach. Finally, we find that taking a parallel ensemble over various methods, including the sequential ensemble, achieves the best results. We evaluate our approach in the BlackboxNLP 2025 MIB Shared Task, comparing ensemble scores to official baselines across multiple model-task combinations.
- Abstract(参考訳): Mechanistic Interpretability Benchmark (MIB) のサーキットローカライゼーショントラックは、大きな言語モデル(LLM)内のサーキットをローカライズする方法を評価する。
本研究では,2つ以上の回路ローカライズ手法を組み込むことで性能が向上するかどうかを検討する。
並列およびシーケンシャルアンサンブルの2つの変種を探索する。
並列アンサンブルでは、各エッジに割り当てられた属性スコアを、平均値または最大値を取ることで、例えば異なるメソッドで組み合わせます。
逐次アンサンブルでは、エッジプルーニング(エッジプルーニング)という、より高価で高精度な回路識別手法のウォームスタートとして、EAP-IGを用いて得られたエッジ属性スコアを用いる。
両手法がベンチマーク指標に顕著な利得をもたらし,より正確な回路同定手法が得られた。
最後に、逐次アンサンブルを含む様々な手法で並列アンサンブルを行うことで、最良の結果が得られることを示す。
我々はBlackboxNLP 2025 MIB Shared Taskにおいて,複数のモデルとタスクの組み合わせに対して,アンサンブルスコアと公式ベースラインを比較してアプローチを評価した。
関連論文リスト
- Self-Supervised Any-Point Tracking by Contrastive Random Walks [17.50529887238381]
我々はグローバルマッチング変換器を訓練し、コントラッシブなランダムウォークを通してビデオを通してサイクル整合性のあるトラックを見つける。
提案手法はTapVidベンチマークで高い性能を達成し,従来の自己教師付きトラッキング手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - A Comparative Evaluation of Quantification Methods [2.802657211770274]
量子化は、目に見えないデータに基づいてクラスラベルの分布を推定する問題を表す。
本研究では,40以上のデータセットに対する24の異なる手法を比較し,バイナリとマルチクラス定量化設定を考慮して検討する。
一般に全ての競合より優れているアルゴリズムは存在しないが、しきい値選択に基づくMedian SweepやTSMaxメソッドを含む一連の手法を識別する。
マルチクラス設定では,HDx法,一般化確率調整数,reme法,エネルギ距離最小化法,EMなど,異なるアルゴリズム群が優れた性能を発揮することを観察する。
論文 参考訳(メタデータ) (2021-03-04T18:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。