論文の概要: BlackboxNLP-2025 MIB Shared Task: Improving Circuit Faithfulness via Better Edge Selection
- arxiv url: http://arxiv.org/abs/2510.25786v1
- Date: Tue, 28 Oct 2025 15:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.483805
- Title: BlackboxNLP-2025 MIB Shared Task: Improving Circuit Faithfulness via Better Edge Selection
- Title(参考訳): BlackboxNLP-2025 MIB共有タスク: エッジ選択の改善による回路忠実度の向上
- Authors: Yaniv Nikankin, Dana Arad, Itay Itzhak, Anja Reusch, Adi Simhi, Gal Kesten-Pomeranz, Yonatan Belinkov,
- Abstract要約: 回路発見の3つの重要な改善を提案する。
まず、一貫した属性スコアを持つエッジを識別するためにブートストラップを使用します。
第二に、強い正の装飾エッジを優先する単純な比に基づく選択戦略を導入する。
第三に、標準グリーディ選択を整数線形計画法に置き換える。
- 参考スコア(独自算出の注目度): 35.326040728422576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main challenges in mechanistic interpretability is circuit discovery, determining which parts of a model perform a given task. We build on the Mechanistic Interpretability Benchmark (MIB) and propose three key improvements to circuit discovery. First, we use bootstrapping to identify edges with consistent attribution scores. Second, we introduce a simple ratio-based selection strategy to prioritize strong positive-scoring edges, balancing performance and faithfulness. Third, we replace the standard greedy selection with an integer linear programming formulation. Our methods yield more faithful circuits and outperform prior approaches across multiple MIB tasks and models. Our code is available at: https://github.com/technion-cs-nlp/MIB-Shared-Task.
- Abstract(参考訳): 機械的解釈可能性の主な課題の1つは回路発見であり、モデルのどの部分が与えられたタスクを実行するかを決定する。
我々は、MIB(Mechanistic Interpretability Benchmark)に基づいて、回路探索の3つの重要な改善を提案する。
まず、一貫した属性スコアを持つエッジを識別するためにブートストラップを使用します。
第2に,正の強いエッジを優先し,性能と忠実さのバランスをとるための,単純な比に基づく選択戦略を導入する。
第三に、標準グリーディ選択を整数線形計画法に置き換える。
提案手法により,より忠実な回路が得られ,複数のMIBタスクやモデルにまたがる先行手法よりも優れた性能が得られる。
私たちのコードは、https://github.com/technion-cs-nlp/MIB-Shared-Taskで利用可能です。
関連論文リスト
- BlackboxNLP-2025 MIB Shared Task: Exploring Ensemble Strategies for Circuit Localization Methods [64.5040037515574]
2つ以上の回路ローカライズ手法を組み込むことで性能が向上するかどうかを検討する。
並列アンサンブルでは、各エッジに割り当てられた属性スコアを異なる方法で組み合わせる。
逐次アンサンブルでは、EAP-IGを用いて得られたエッジ属性スコアを、より高価で高精度な回路識別法のためのウォームスタートとして使用する。
論文 参考訳(メタデータ) (2025-10-08T09:39:40Z) - Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework [4.336808542533343]
本研究は,属性パッチを用いて高電位部分グラフを同定するハイブリッド属性・プルーニングフレームワークを提案する。
回路忠実度を犠牲にすることなく,HAPはベースラインアルゴリズムよりも46%高速であることを示す。
論文 参考訳(メタデータ) (2025-09-28T18:34:43Z) - MIB: A Mechanistic Interpretability Benchmark [77.35046700898326]
4つのタスクと5つのモデルにまたがる2つのトラックを持つメカニスティック解釈可能性ベンチマークMIBを提案する。
MIBを用いて、帰属とマスク最適化の手法が回路のローカライゼーションにおいて最適であることがわかった。
因果変数の局在化では、教師付きDAS法がニューロンより優れているが、SAEの特徴はニューロンより優れている。
論文 参考訳(メタデータ) (2025-04-17T17:55:45Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。