論文の概要: SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training
- arxiv url: http://arxiv.org/abs/2603.02908v1
- Date: Tue, 03 Mar 2026 12:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.78118
- Title: SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training
- Title(参考訳): 結晶球としてのSAE--LCMのクロスドメイン伝達性予測の解釈的特徴-
- Authors: Qi Zhang, Yifei Wang, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin, Yisen Wang,
- Abstract要約: SAEベースのTransferability Score(STS)は、トレーニング後のTransferabilityを予測するための新しい指標である。
STSは教師付き微調整の伝達可能性を正確に予測し,実際の性能変化とともに0.7以上のピアソン相関係数を達成できることを示す。
- 参考スコア(独自算出の注目度): 70.84726713548099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, pre-trained large language models have achieved remarkable success across diverse tasks. Besides the pivotal role of self-supervised pre-training, their effectiveness in downstream applications also depends critically on the post-training process, which adapts models to task-specific data and objectives. However, this process inevitably introduces model shifts that can influence performance in different domains, and how such shifts transfer remains poorly understood. To open up the black box, we propose the SAE-based Transferability Score (STS), a new metric that leverages sparse autoencoders (SAEs) to forecast post-training transferability. Taking supervised fine-tuning as an example, STS identifies shifted dimensions in SAE representations and calculates their correlations with downstream domains, enabling reliable estimation of transferability \textit{before} fine-tuning. Extensive experiments across multiple models and domains show that STS accurately predicts the transferability of supervised fine-tuning, achieving Pearson correlation coefficients above 0.7 with actual performance changes. Beyond this, we take an initial step toward extending STS to reinforcement learning. We believe that STS can serve as an {\color{black} interpretable} tool for guiding post-training strategies in LLMs. Code is available at https://github.com/PKU-ML/STS.
- Abstract(参考訳): 近年、事前訓練された大規模言語モデルは様々なタスクで顕著な成功を収めている。
自己指導型事前学習の役割の他に、下流アプリケーションにおけるそれらの効果は、タスク固有のデータや目的にモデルを適応させるポストトレーニングプロセスにも大きく依存する。
しかし、このプロセスは必然的に、異なるドメインのパフォーマンスに影響を与えるモデルシフトを導入し、そのようなシフト転送がどのようにして理解されていないかを示す。
ブラックボックスを開くために,SAEベースのトランスファービリティスコア(STS)を提案する。これは,スパースオートエンコーダ(SAE)を利用して,トレーニング後のトランスファービリティを予測する新しいメトリクスである。
教師付き微調整を例として、STSはSAE表現のシフト次元を特定し、下流領域との相関を計算し、転送可能性 \textit{before} 微調整の信頼性の高い推定を可能にする。
複数のモデルや領域にわたる大規模な実験により、STSは監督された微調整の伝達可能性を正確に予測し、実際の性能変化でパーソン相関係数を0.7以上達成している。
さらに、STSを強化学習に拡張するための最初の一歩を踏み出します。
STS は LLM におけるポストトレーニング戦略を導くためのツールとして機能すると考えられる。
コードはhttps://github.com/PKU-ML/STSで入手できる。
関連論文リスト
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Steering Information Utility in Key-Value Memory for Language Model Post-Training [16.655945393684373]
本稿では,ポストトレーニング中の言語モデル(LM)におけるパラメトリック情報利用を促進する軽量な手法であるInfoSteerを紹介する。
この単純なガイダンスは、分散内(ID)とアウト・オブ・ディストリビューション(OOD)の評価において、15のダウンストリームタスクで一貫したパフォーマンス改善をもたらす。
我々の研究は、バニラポストトレーニングが事前トレーニング中に得られる可能性を完全に活用していないこと、そして、潜在表現空間におけるLMの操舵は、性能と解釈可能性の両方を高めるための有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2025-07-07T16:13:21Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。