論文の概要: Language models' activations linearly encode training-order recency
- arxiv url: http://arxiv.org/abs/2509.14223v1
- Date: Wed, 17 Sep 2025 17:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.948613
- Title: Language models' activations linearly encode training-order recency
- Title(参考訳): 学習順序の線形符号化による言語モデルのアクティベーション
- Authors: Dmitrii Krasheninnikov, Richard E. Turner, David Krueger,
- Abstract要約: 学習中に学習した情報に対して,言語モデルのアクティベーションが線形に符号化されることを示す。
その結果、6つのトレーニングデータセットのテストサンプルの平均的なアクティベーションが、トレーニング順序をエンコードしていることがわかった。
- 参考スコア(独自算出の注目度): 27.40847212269813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that language models' activations linearly encode when information was learned during training. Our setup involves creating a model with a known training order by sequentially fine-tuning Llama-3.2-1B on six disjoint but otherwise similar datasets about named entities. We find that the average activations of test samples for the six training datasets encode the training order: when projected into a 2D subspace, these centroids are arranged exactly in the order of training and lie on a straight line. Further, we show that linear probes can accurately (~90%) distinguish "early" vs. "late" entities, generalizing to entities unseen during the probes' own training. The model can also be fine-tuned to explicitly report an unseen entity's training stage (~80% accuracy). Interestingly, this temporal signal does not seem attributable to simple differences in activation magnitudes, losses, or model confidence. Our paper demonstrates that models are capable of differentiating information by its acquisition time, and carries significant implications for how they might manage conflicting data and respond to knowledge modifications.
- Abstract(参考訳): 学習中に学習した情報に対して,言語モデルのアクティベーションが線形に符号化されることを示す。
我々のセットアップでは、6つの非結合だが、名前付きエンティティに関する類似したデータセットを逐次微調整することで、既知のトレーニング順序を持つモデルを作成する。
6つのトレーニングデータセットに対するテストサンプルの平均的なアクティベーションは、トレーニング順序を符号化している: 2次元サブスペースに投影されると、これらのセントロイドはトレーニング順に正確に配置され、直線上に横たわる。
さらに、線形プローブは「早期」と「後期」とを正確に区別し、プローブの訓練中に見えない物体に一般化できることを示した。
モデルは、目に見えないエンティティのトレーニングステージ(〜80%の精度)を明示的に報告するように微調整することもできる。
興味深いことに、この時間信号は、アクティベーションの規模、損失、モデルの信頼性の単純な違いに起因するとは思えない。
本論文は, モデルが取得時間によって情報を識別できることを示し, 矛盾するデータを管理し, 知識修正に対応する方法について, 重要な意味を持つことを示す。
関連論文リスト
- On Linear Representations and Pretraining Data Frequency in Language Models [54.756179696806356]
本研究では,事前学習データ周波数と実関係の線形表現との関係について検討する。
線形表現の形成が事前学習項周波数と強く結びついていることを示す。
LMにおける線形表現の強さは、モデルの事前学習コーパスに関する信号を含むと結論付けている。
論文 参考訳(メタデータ) (2025-04-16T19:50:03Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [45.745443096804586]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。