論文の概要: Evolution of Concepts in Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2509.17196v1
- Date: Sun, 21 Sep 2025 18:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.16216
- Title: Evolution of Concepts in Language Model Pre-Training
- Title(参考訳): 言語モデルの事前学習における概念の進化
- Authors: Xuyang Ge, Wentao Shu, Jiaxing Wu, Yunhua Zhou, Zhengfu He, Xipeng Qiu,
- Abstract要約: クロスコーダと呼ばれるスパース辞書学習手法を用いて,事前学習スナップショットにおける線形解釈可能な特徴の進化を追跡する。
ほとんどの機能が特定のポイントの周りに形成され始め、さらに複雑なパターンが後のトレーニング段階に現れます。
- 参考スコア(独自算出の注目度): 53.994470178155105
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models obtain extensive capabilities through pre-training. However, the pre-training process remains a black box. In this work, we track linear interpretable feature evolution across pre-training snapshots using a sparse dictionary learning method called crosscoders. We find that most features begin to form around a specific point, while more complex patterns emerge in later training stages. Feature attribution analyses reveal causal connections between feature evolution and downstream performance. Our feature-level observations are highly consistent with previous findings on Transformer's two-stage learning process, which we term a statistical learning phase and a feature learning phase. Our work opens up the possibility to track fine-grained representation progress during language model learning dynamics.
- Abstract(参考訳): 言語モデルは事前学習を通じて広範囲の能力を得る。
しかし、事前訓練のプロセスはブラックボックスのままである。
本研究では,クロスコーダと呼ばれるスパース辞書学習手法を用いて,事前学習スナップショット間の線形解釈可能な特徴進化を追跡する。
ほとんどの機能が特定のポイントの周りに形成され始め、さらに複雑なパターンが後のトレーニング段階に現れます。
特徴属性分析により,特徴の進化と下流性能の因果関係が明らかになった。
特徴レベルの観察は,Transformerの2段階学習プロセスにおいて,統計的学習フェーズと特徴学習フェーズと呼ばれる過去の知見と非常に一致している。
我々の研究は、言語モデル学習のダイナミックスにおいて、きめ細かい表現の進行を追跡できる可能性を開く。
関連論文リスト
- Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining [33.22703101533052]
大規模な言語モデルは、事前訓練中に非自明な抽象化を学ぶ。
スパース・クロスコーダを使用して、モデルのチェックポイント間で機能を発見、調整しています。
プレトレーニング中に,クロスコーダが特徴の出現,維持,継続を検知できることを示す。
論文 参考訳(メタデータ) (2025-09-05T17:56:24Z) - Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval [31.9252824152673]
我々は、因果言語モデルにおける入力シーケンスの途中の情報損失を実証する以前の研究に基づいて構築した。
エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。
論文 参考訳(メタデータ) (2024-04-05T15:16:16Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。