論文の概要: Unveiling Language Skills via Path-Level Circuit Discovery
- arxiv url: http://arxiv.org/abs/2410.01334v2
- Date: Mon, 16 Dec 2024 03:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:43.703454
- Title: Unveiling Language Skills via Path-Level Circuit Discovery
- Title(参考訳): パスレベル回路探索による言語スキルの展開
- Authors: Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang,
- Abstract要約: 相互接続された線形鎖を通しての動作の出現を検知する新しい経路レベル回路発見フレームワークを提案する。
本フレームワークは,元モデルから切り離されたメモリ回路の線形結合を,完全距離で構成する。
既存の研究のサーキットグラフとは対照的に、入力の個々のコンポーネントに対するきめ細かい応答ではなく、ジェネリックスキルの完全なパスに焦点を当てる。
- 参考スコア(独自算出の注目度): 31.608080868988825
- License:
- Abstract: Circuit discovery with edge-level ablation has become a foundational framework for mechanism interpretability of language models. However, its focus on individual edges often overlooks the sequential, path-level causal relationships that underpin complex behaviors, thus potentially leading to misleading or incomplete circuit discoveries. To address this issue, we propose a novel path-level circuit discovery framework capturing how behaviors emerge through interconnected linear chain and build towards complex behaviors. Our framework is constructed upon a fully-disentangled linear combinations of ``memory circuits'' decomposed from the original model. To discover functional circuit paths, we leverage a 2-step pruning strategy by first reducing the computational graph to a faithful and minimal subgraph and then applying causal mediation to identify common paths of a specific skill, termed as skill paths. In contrast to circuit graph from existing works, we focus on the complete paths of a generic skill rather than on the fine-grained responses to individual components of the input. To demonstrate this, we explore three generic language skills, namely Previous Token Skill, Induction Skill and In-Context Learning Skill using our framework and provide more compelling evidence to substantiate stratification and inclusiveness of these skills.
- Abstract(参考訳): エッジレベルのアブレーションによる回路発見は、言語モデルのメカニズム解釈可能性の基礎となるフレームワークとなっている。
しかし、個々のエッジに焦点を合わせると、複雑な振る舞いの基盤となるシーケンシャルでパスレベルの因果関係を見落としてしまうことが多く、それによって誤認や不完全な回路発見につながる可能性がある。
この問題に対処するために, 相互接続された線形鎖を介して動作がどのように出現し, 複雑な動作に向かって構築されるかを示す, 経路レベル回路探索フレームワークを提案する。
本フレームワークは,元モデルから分離した ``Memory circuits'' の完全距離線形結合上に構築されている。
機能的回路経路を発見するためには,まず計算グラフを忠実で最小限のサブグラフに還元し,その後,スキルパスと呼ばれる特定のスキルの共通経路を特定するために因果仲裁を適用することにより,2段階のプルーニング戦略を利用する。
既存の研究のサーキットグラフとは対照的に、入力の個々のコンポーネントに対するきめ細かい応答ではなく、ジェネリックスキルの完全なパスに焦点を当てる。
これを示すために,本フレームワークを用いて,事前学習スキル,誘導スキル,インコンテクスト学習スキルという3つの汎用言語スキルを探索し,これらのスキルの成層化と包摂性を実証するためのより説得力のある証拠を提供する。
関連論文リスト
- Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Navigating Shortcuts, Spurious Correlations, and Confounders: From Origins via Detection to Mitigation [21.21130450731374]
Clever Hans氏の行動、刺激的な相関、あるいは共同設立者は、機械学習とAIにおいて重要な課題を提示している。
この領域の研究は、様々な用語で断片化され、分野全体の進歩を妨げている。
我々は,ショートカットを形式的に定義し,文献で用いられる多種多様な用語をブリッジすることによって,統一された分類を導入する。
論文 参考訳(メタデータ) (2024-12-06T16:10:13Z) - Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T11:36:45Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Joint Language Semantic and Structure Embedding for Knowledge Graph
Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。
本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。
各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2022-09-19T02:41:02Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Automated Relational Meta-learning [95.02216511235191]
本稿では,クロスタスク関係を自動的に抽出し,メタ知識グラフを構築する自動リレーショナルメタ学習フレームワークを提案する。
我々は,2次元玩具の回帰と少数ショット画像分類に関する広範な実験を行い,ARMLが最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-03T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。