論文の概要: Towards Best Practices of Activation Patching in Language Models:
Metrics and Methods
- arxiv url: http://arxiv.org/abs/2309.16042v2
- Date: Wed, 17 Jan 2024 04:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:37:21.812737
- Title: Towards Best Practices of Activation Patching in Language Models:
Metrics and Methods
- Title(参考訳): 言語モデルにおけるアクティベーションパッチングのベストプラクティスに向けて:メトリクスとメソッド
- Authors: Fred Zhang and Neel Nanda
- Abstract要約: 評価指標や汚損手法を含む,アクティベーションパッチングにおける方法論的詳細の影響について検討する。
経験的観察に支えられ、ある指標や方法が好まれる理由について、概念的な議論を行う。
- 参考スコア(独自算出の注目度): 9.121998462494533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability seeks to understand the internal mechanisms of
machine learning models, where localization -- identifying the important model
components -- is a key step. Activation patching, also known as causal tracing
or interchange intervention, is a standard technique for this task (Vig et al.,
2020), but the literature contains many variants with little consensus on the
choice of hyperparameters or methodology. In this work, we systematically
examine the impact of methodological details in activation patching, including
evaluation metrics and corruption methods. In several settings of localization
and circuit discovery in language models, we find that varying these
hyperparameters could lead to disparate interpretability results. Backed by
empirical observations, we give conceptual arguments for why certain metrics or
methods may be preferred. Finally, we provide recommendations for the best
practices of activation patching going forwards.
- Abstract(参考訳): 機械的な解釈可能性(mechanistic interpretability)は、マシンラーニングモデルの内部メカニズムを理解することを目的としている。
活性化パッチング(英: Activation patching)または因果トレース(英: causal Trace)またはインターチェンジ介入(英: exchange intervention)は、このタスクの標準技術(Vig et al., 2020)であるが、この文献にはハイパーパラメータや方法論の選択についてほとんど合意が得られていない多くの変種が含まれている。
本研究では,アクティベーションパッチ作成における方法論的詳細の影響を系統的に検討する。
言語モデルにおける局所化と回路探索のいくつかの設定において、これらのハイパーパラメータは異なる解釈可能性の結果をもたらす可能性がある。
経験的観察に支えられ、ある指標や方法が好まれる理由に関する概念的議論を行う。
最後に、私たちは、今後のアクティベーションパッチングのベストプラクティスについて推奨します。
関連論文リスト
- How Far Can In-Context Alignment Go? Exploring the State of In-Context Alignment [48.0254056812898]
In-Context Learning (ICL) は、大規模言語モデルと、In-Context Alignment (ICA) と呼ばれる人間の好みを合わせることができる。
コンテキストテキストは、形式、システムプロンプト、例の3つのカテゴリに分けられる。
本研究は,モデルのアライメント能力を高めるために,サンプル部が重要であることを示唆する。
論文 参考訳(メタデータ) (2024-06-17T12:38:48Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。