論文の概要: AtP*: An efficient and scalable method for localizing LLM behaviour to
components
- arxiv url: http://arxiv.org/abs/2403.00745v1
- Date: Fri, 1 Mar 2024 18:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:37:19.168909
- Title: AtP*: An efficient and scalable method for localizing LLM behaviour to
components
- Title(参考訳): AtP*: LLM動作をコンポーネントにローカライズするための効率的でスケーラブルな方法
- Authors: J\'anos Kram\'ar, Tom Lieberum, Rohin Shah, Neel Nanda (Google
DeepMind)
- Abstract要約: Attribution Patching (AtP) は高速勾配に基づく Activation Patching の近似である。
本稿では,アクティベーションパッチの高速化のためのAtPと代替手法に関する最初の体系的研究について述べる。
- 参考スコア(独自算出の注目度): 6.47684348405662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation Patching is a method of directly computing causal attributions of
behavior to model components. However, applying it exhaustively requires a
sweep with cost scaling linearly in the number of model components, which can
be prohibitively expensive for SoTA Large Language Models (LLMs). We
investigate Attribution Patching (AtP), a fast gradient-based approximation to
Activation Patching and find two classes of failure modes of AtP which lead to
significant false negatives. We propose a variant of AtP called AtP*, with two
changes to address these failure modes while retaining scalability. We present
the first systematic study of AtP and alternative methods for faster activation
patching and show that AtP significantly outperforms all other investigated
methods, with AtP* providing further significant improvement. Finally, we
provide a method to bound the probability of remaining false negatives of AtP*
estimates.
- Abstract(参考訳): アクティベーション・パッチング(Activation Patching)は、モデルコンポーネントに対する振る舞いの因果関係を直接計算する手法である。
しかし、それを徹底的に適用するには、モデルコンポーネントの数を線形にスケーリングするコストの削減が必要であり、これはSoTA Large Language Models (LLMs) にとって違法にコストがかかる可能性がある。
アトリビューションパッチ(attribution patching, atp)は、アクティベーションパッチングに対する高速勾配に基づく近似である。
我々は、スケーラビリティを維持しながらこれらの障害モードに対処するために2つの変更を加えたatp*と呼ばれるatpの変種を提案する。
本稿では, アクティベーションパッチの高速化のためのAtPおよび代替手法に関する最初の体系的研究を行い, AtPが他の調査方法よりも優れており, AtP*はさらなる大幅な改善をもたらすことを示す。
最後に、AtP*推定の残りの偽陰性の確率を限定する手法を提案する。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - AgFlow: Fast Model Selection of Penalized PCA via Implicit
Regularization Effects of Gradient Flow [64.81110234990888]
主成分分析(PCA)は特徴抽出と次元減少の有効な手法として広く用いられている。
High Dimension Low Sample Size (HDLSS) 設定では、ペナル化ロードを備えた修正主成分が好まれる。
ペナル化PCAの高速モデル選択法として近似勾配流(AgFlow)を提案する。
論文 参考訳(メタデータ) (2021-10-07T08:57:46Z) - The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning [6.181642248900806]
強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。
MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。
また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
論文 参考訳(メタデータ) (2020-06-23T01:35:54Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。