論文の概要: Transferring Features Across Language Models With Model Stitching
- arxiv url: http://arxiv.org/abs/2506.06609v1
- Date: Sat, 07 Jun 2025 01:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.360624
- Title: Transferring Features Across Language Models With Model Stitching
- Title(参考訳): モデルスティッチによる言語モデル間の機能伝達
- Authors: Alan Chen, Jack Merullo, Alessandro Stolfo, Ellie Pavlick,
- Abstract要約: 言語モデルの残差ストリーム間のアフィンマッピングは、モデル間で表現された特徴を転送するための安価な方法であることを示す。
小型モデルと大規模モデルは、非常によく似た表現空間を学習し、より小さなモデルでSAEなどの高価なコンポーネントをトレーニングし、FLOPの貯蓄でより大きなモデルに転送する動機付けをする。
- 参考スコア(独自算出の注目度): 61.24716360332365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we demonstrate that affine mappings between residual streams of language models is a cheap way to effectively transfer represented features between models. We apply this technique to transfer the weights of Sparse Autoencoders (SAEs) between models of different sizes to compare their representations. We find that small and large models learn highly similar representation spaces, which motivates training expensive components like SAEs on a smaller model and transferring to a larger model at a FLOPs savings. For example, using a small-to-large transferred SAE as initialization can lead to 50% cheaper training runs when training SAEs on larger models. Next, we show that transferred probes and steering vectors can effectively recover ground truth performance. Finally, we dive deeper into feature-level transferability, finding that semantic and structural features transfer noticeably differently while specific classes of functional features have their roles faithfully mapped. Overall, our findings illustrate similarities and differences in the linear representation spaces of small and large models and demonstrate a method for improving the training efficiency of SAEs.
- Abstract(参考訳): 本研究では,言語モデルの残差ストリーム間のアフィンマッピングが,モデル間で表現された特徴を効果的に伝達するための安価な方法であることを実証する。
本研究では,異なるサイズのモデル間でスパースオートエンコーダ(SAE)の重み付けを行い,それらの表現を比較する。
小型モデルと大規模モデルは、非常によく似た表現空間を学習し、より小さなモデルでSAEなどの高価なコンポーネントをトレーニングし、FLOPの貯蓄でより大きなモデルに転送する動機付けをする。
例えば、小規模から大規模に移行したSAEを初期化として使用すると、より大規模なモデルでSAEをトレーニングする場合、50%安くなる。
次に,移動プローブとステアリングベクトルが,地中真理性能を効果的に回復できることを示す。
最後に、機能レベルの転送可能性について詳しく調べ、セマンティックな特徴と構造的な特徴が著しく異なることに気付き、機能機能の特定のクラスはその役割を忠実にマッピングしています。
本研究は,小規模モデルと大規模モデルの線形表現空間の類似点と相違点を示し,SAEの訓練効率を向上させる方法を示す。
関連論文リスト
- Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models [6.390475802910619]
同一データ上で訓練されたモデル間で学習された表現は、基本特徴の近辺集合の線形結合として表現できることを示す。
これらの基本機能は、学習タスク自体を基盤とし、スケールに関係なく、モデル間で一貫性を維持します。
論文 参考訳(メタデータ) (2025-05-31T17:45:18Z) - Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。
モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3~28%向上する。
論文 参考訳(メタデータ) (2025-03-05T19:46:04Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Beyond Output Matching: Bidirectional Alignment for Enhanced In-Context Learning [39.51220489287151]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts [22.74552390076515]
種々のバックボーンと事前学習セットを持つ16の頑健なゼロショットCLIPビジョンエンコーダの表現空間を探索する。
頑健なゼロショットCLIPビジョンエンコーダにおいて、オフリー機能の存在を検知し、これらが非トランスフォーマーモデルで観測されるのはこれが初めてである。
我々は、モデルにおけるImageNetシフトのロバスト性を示すために、外部機能が存在することを発見した。
論文 参考訳(メタデータ) (2023-10-19T17:59:12Z) - Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation [28.432799973328127]
圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。
提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
論文 参考訳(メタデータ) (2022-03-15T07:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。