論文の概要: Hypothesis Testing the Circuit Hypothesis in LLMs
- arxiv url: http://arxiv.org/abs/2410.13032v1
- Date: Wed, 16 Oct 2024 20:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:06.124656
- Title: Hypothesis Testing the Circuit Hypothesis in LLMs
- Title(参考訳): LLMにおける回路仮説の仮説検証
- Authors: Claudia Shi, Nicolas Beltran-Velez, Achille Nazaret, Carolina Zheng, Adrià Garriga-Alonso, Andrew Jesson, Maggie Makar, David M. Blei,
- Abstract要約: 回路が適合する仮説を定式化し、回路がどの程度満足するかを評価するための仮説テストスイートを開発する。
この基準は、LCMの挙動が保存される範囲、この挙動の局所化の程度、回路が最小であるかどうかに焦点が当てられている。
合成回路 -- モデルでハードコードされた回路 -- は、理想化された特性と一致している。
- 参考スコア(独自算出の注目度): 23.71068328527293
- License:
- Abstract: Large language models (LLMs) demonstrate surprising capabilities, but we do not understand how they are implemented. One hypothesis suggests that these capabilities are primarily executed by small subnetworks within the LLM, known as circuits. But how can we evaluate this hypothesis? In this paper, we formalize a set of criteria that a circuit is hypothesized to meet and develop a suite of hypothesis tests to evaluate how well circuits satisfy them. The criteria focus on the extent to which the LLM's behavior is preserved, the degree of localization of this behavior, and whether the circuit is minimal. We apply these tests to six circuits described in the research literature. We find that synthetic circuits -- circuits that are hard-coded in the model -- align with the idealized properties. Circuits discovered in Transformer models satisfy the criteria to varying degrees. To facilitate future empirical studies of circuits, we created the \textit{circuitry} package, a wrapper around the \textit{TransformerLens} library, which abstracts away lower-level manipulations of hooks and activations. The software is available at \url{https://github.com/blei-lab/circuitry}.
- Abstract(参考訳): 大きな言語モデル(LLM)は驚くべき能力を示すが、どのように実装されているかは理解できない。
1つの仮説は、これらの能力は、主にLLM内の小さなサブネットワーク(サーキットとして知られる)によって実行されることを示唆している。
しかし、どのようにしてこの仮説を評価することができるのか?
本稿では,回路が満たす条件の集合を定式化し,回路の満足度を評価するための仮説テストスイートを開発する。
この基準は、LCMの挙動が保存される範囲、この挙動の局所化の程度、回路が最小であるかどうかに焦点が当てられている。
研究文献に記載されている6つの回路にこれらの試験を適用した。
合成回路 -- モデルでハードコードされた回路 -- は、理想化された特性と一致している。
Transformerモデルで発見された回路は、様々な度合いの基準を満たす。
将来の回路の実証的研究を容易にするため,我々は,フックやアクティベーションの下位レベル操作を抽象化する,‘textit{transformerLens’ライブラリのラッパーである‘textit{circuitry}パッケージを作成した。
このソフトウェアは \url{https://github.com/blei-lab/circuitry} で入手できる。
関連論文リスト
- Adversarial Circuit Evaluation [1.1893676124374688]
文献中の3つの回路(IOI, Great-than, docstring)を対角的に評価した。
我々は,全モデルの出力と回路の出力とのKLのばらつきを測定し,再サンプリングアブレーションによって計算し,最悪の性能の入力を解析する。
論文 参考訳(メタデータ) (2024-07-21T13:43:44Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - What Do the Circuits Mean? A Knowledge Edit View [18.022428746019582]
GPT2-XLモデルにおいて,多様なテキスト分類データセットを用いて回路を抽出する。
以上の結果から,これらの回路はエンティティ知識を含むが,知識編集において補完回路よりも新しい知識に抵抗することが示唆された。
その結果、回路の60%は、注意や正規化ではなく、層モジュールで構成されていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T03:09:53Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - On the realistic worst case analysis of quantum arithmetic circuits [69.43216268165402]
量子回路の設計における直観は誤解を招く可能性があることを示す。
また,T数を減らすことで,全深度を増大させることができることを示した。
リップルキャリーを用いた加算回路と乗算回路について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:16Z) - Machine Learning Optimization of Quantum Circuit Layouts [63.55764634492974]
本稿では量子回路マッピングQXXとその機械学習バージョンQXX-MLPを紹介する。
後者は、レイアウトされた回路の深さが小さくなるように最適なQXXパラメータ値を自動的に推論する。
近似を用いてレイアウト法を学習可能な経験的証拠を提示する。
論文 参考訳(メタデータ) (2020-07-29T05:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。