論文の概要: Position-aware Automatic Circuit Discovery
- arxiv url: http://arxiv.org/abs/2502.04577v1
- Date: Fri, 07 Feb 2025 00:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:12.893972
- Title: Position-aware Automatic Circuit Discovery
- Title(参考訳): 位置認識型自動回路発見
- Authors: Tal Haklay, Hadas Orgad, David Bau, Aaron Mueller, Yonatan Belinkov,
- Abstract要約: 我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
- 参考スコア(独自算出の注目度): 59.64762573617173
- License:
- Abstract: A widely used strategy to discover and understand language model mechanisms is circuit analysis. A circuit is a minimal subgraph of a model's computation graph that executes a specific task. We identify a gap in existing circuit discovery methods: they assume circuits are position-invariant, treating model components as equally relevant across input positions. This limits their ability to capture cross-positional interactions or mechanisms that vary across positions. To address this gap, we propose two improvements to incorporate positionality into circuits, even on tasks containing variable-length examples. First, we extend edge attribution patching, a gradient-based method for circuit discovery, to differentiate between token positions. Second, we introduce the concept of a dataset schema, which defines token spans with similar semantics across examples, enabling position-aware circuit discovery in datasets with variable length examples. We additionally develop an automated pipeline for schema generation and application using large language models. Our approach enables fully automated discovery of position-sensitive circuits, yielding better trade-offs between circuit size and faithfulness compared to prior work.
- Abstract(参考訳): 言語モデル機構の発見と理解に広く用いられている戦略は、回路解析である。
回路は、特定のタスクを実行するモデルの計算グラフの最小部分グラフである。
我々は既存の回路発見手法のギャップを同定し、回路が位置不変であると仮定し、モデル成分を入力位置間で等しく関連するものとして扱う。
これにより、位置によって異なる位置の相互作用やメカニズムを捉える能力が制限される。
このギャップに対処するために、可変長例を含むタスクであっても、回路に位置性を組み込む2つの改善を提案する。
まず,回路発見のための勾配法であるエッジ属性パッチ(エッジ属性パッチ)を拡張し,トークンの位置を区別する。
第二に、データセットスキーマの概念を導入し、トークンスパンと類似のセマンティクスを例によって定義し、可変長例のデータセットにおける位置認識回路探索を可能にする。
また、大規模言語モデルを用いたスキーマ生成とアプリケーションのための自動パイプラインも開発する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
関連論文リスト
- Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文 参考訳(メタデータ) (2024-05-22T17:50:04Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文 参考訳(メタデータ) (2023-04-28T17:36:53Z) - DeepSeq: Deep Sequential Circuit Learning [10.402436619244911]
回路表現学習は電子設計自動化(EDA)分野における有望な研究方向である。
既存のソリューションは組合せ回路のみをターゲットにしており、その応用は著しく制限されている。
シーケンシャルネットリストのための新しい表現学習フレームワークであるDeepSeqを提案する。
論文 参考訳(メタデータ) (2023-02-27T09:17:35Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。