論文の概要: Inference-Time Decomposition of Activations (ITDA): A Scalable Approach to Interpreting Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17769v1
- Date: Fri, 23 May 2025 11:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.035169
- Title: Inference-Time Decomposition of Activations (ITDA): A Scalable Approach to Interpreting Large Language Models
- Title(参考訳): 推論時アクティベーション分解(ITDA:Inference-Time Decomposition of Activation) : 大規模言語モデルに対するスケーラブルなアプローチ
- Authors: Patrick Leask, Neel Nanda, Noura Al Moubayed,
- Abstract要約: Inference-Time Decomposition of Activation(ITDA)モデルは、言語モデルのアクティベーションを分解する代替手法である。
ITDAは、データの1%を使用して、SAEに必要な時間のわずか1%でトレーニングすることができる。
- 参考スコア(独自算出の注目度): 5.585690587630886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a popular method for decomposing Large Langage Models (LLM) activations into interpretable latents. However, due to their substantial training cost, most academic research uses open-source SAEs which are only available for a restricted set of models of up to 27B parameters. SAE latents are also learned from a dataset of activations, which means they do not transfer between models. Motivated by relative representation similarity measures, we introduce Inference-Time Decomposition of Activations (ITDA) models, an alternative method for decomposing language model activations. To train an ITDA, we greedily construct a dictionary of language model activations on a dataset of prompts, selecting those activations which were worst approximated by matching pursuit on the existing dictionary. ITDAs can be trained in just 1\% of the time required for SAEs, using 1\% of the data. This allowed us to train ITDAs on Llama-3.1 70B and 405B on a single consumer GPU. ITDAs can achieve similar reconstruction performance to SAEs on some target LLMs, but generally incur a performance penalty. However, ITDA dictionaries enable cross-model comparisons, and a simple Jaccard similarity index on ITDA dictionaries outperforms existing methods like CKA, SVCCA, and relative representation similarity metrics. ITDAs provide a cheap alternative to SAEs where computational resources are limited, or when cross model comparisons are necessary. Code available at https://github.com/pleask/itda.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、LLM(Large Langage Models)アクティベーションを解釈可能なラテントに分解する一般的な方法である。
しかし、かなりのトレーニングコストのため、ほとんどの学術研究は、最大27Bパラメータの制限されたモデルのセットでしか利用できないオープンソースのSAEを使用している。
SAEラテントはまた、アクティベーションのデータセットから学習される。
言語モデルのアクティベーションを分解する代替手法であるITDA(Inference-Time Decomposition of Activation)モデルを導入する。
ITDAを訓練するために,既存の辞書を追従することで最も近似されたアクティベーションを選択することで,アクティベーションのデータセット上に言語モデルアクティベーションの辞書を厳格に構築する。
ITDAは、データの1/%を使用して、SAEに必要な時間のわずか1/%でトレーニングすることができる。
これにより、単一のコンシューマGPU上でLlama-3.1 70Bと405BでITDAをトレーニングできるようになりました。
ITDAは、一部のLLM上でSAEと同様の再構成性能を達成できるが、一般的には性能上のペナルティをもたらす。
しかし、ITDA辞書はクロスモデル比較を可能にし、ITDA辞書上の単純なジャカード類似度指数は、CKA、SVCCA、および相対表現類似度指標などの既存の手法より優れている。
ITDAは、計算リソースが限られているSAEや、クロスモデル比較が必要な場合の安い代替手段を提供する。
コードはhttps://github.com/pleask/itda.comで公開されている。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Deep Indexed Active Learning for Matching Heterogeneous Entity
Representations [20.15233789156307]
本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。
5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2021-04-08T18:00:19Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。