論文の概要: Vocabulary embeddings organize linguistic structure early in language model training
- arxiv url: http://arxiv.org/abs/2510.07613v1
- Date: Wed, 08 Oct 2025 23:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.769547
- Title: Vocabulary embeddings organize linguistic structure early in language model training
- Title(参考訳): 語彙埋め込みは言語モデル訓練の初期に言語構造を整理する
- Authors: Isabel Papadimitriou, Jacob Prince,
- Abstract要約: 大規模言語モデル(LLM)は、入力埋め込みベクトルの幾何を複数の層で操作することで機能する。
ここでは、言語モデルの入力語彙表現がどのように構造化され、この構造はトレーニング中にどのように進化しますか?
入力埋め込みの幾何学的構造と2つのオープンソースモデルの出力埋め込みを、セマンティック、構文、周波数ベースのメトリクスで関連付ける一連の実験を行った。
- 参考スコア(独自算出の注目度): 3.2661767443292646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) work by manipulating the geometry of input embedding vectors over multiple layers. Here, we ask: how are the input vocabulary representations of language models structured, and how and when does this structure evolve over training? To answer this question, we use representational similarity analysis, running a suite of experiments that correlate the geometric structure of the input embeddings and output embeddings of two open-source models (Pythia 12B and OLMo 7B) with semantic, syntactic, and frequency-based metrics over the course of training. Our key findings are as follows: 1) During training, the vocabulary embedding geometry quickly converges to high correlations with a suite of semantic and syntactic features; 2) Embeddings of high-frequency and function words (e.g., "the," "of") converge to their final vectors faster than lexical and low-frequency words, which retain some alignment with the bias in their random initializations. These findings help map the dynamic trajectory by which input embeddings organize around linguistic structure, revealing distinct roles for word frequency and function. Our findings motivate a deeper study of how the evolution of vocabulary geometry may facilitate specific capability gains during model training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力埋め込みベクトルの幾何を複数の層で操作することで機能する。
ここでは、言語モデルの入力語彙表現はどのように構造化され、この構造はトレーニング中にどのように、いつ進化するのかを問う。
そこで本研究では,2つのオープンソースモデル(Pythia 12B と OLMo 7B)の幾何学的埋め込みと出力埋め込みを,意味的,統語的,周波数に基づくメトリクスで関連付ける一連の実験を行った。
主な発見は以下の通りである。
1)訓練中,語彙埋め込み幾何は,意味的・統語的特徴の集合と高い相関関係に急速に収束する。
2) 高頻度・関数語(例:「the」,「of」)の埋め込みは語彙・低頻度語よりも早く最終ベクトルに収束し、ランダムな初期化におけるバイアスとある程度の整合性を保持する。
これらの知見は、入力埋め込みが言語構造を包含し、単語の頻度と機能に異なる役割を明らかにするダイナミックな軌跡をマッピングするのに役立つ。
本研究は,語彙幾何学の進化がモデル学習における特定の能力向上をいかに促進するかについて,より深く研究する動機となっている。
関連論文リスト
- Evolution of Concepts in Language Model Pre-Training [53.994470178155105]
クロスコーダと呼ばれるスパース辞書学習手法を用いて,事前学習スナップショットにおける線形解釈可能な特徴の進化を追跡する。
ほとんどの機能が特定のポイントの周りに形成され始め、さらに複雑なパターンが後のトレーニング段階に現れます。
論文 参考訳(メタデータ) (2025-09-21T18:53:12Z) - Probing Internal Representations of Multi-Word Verbs in Large Language Models [0.0]
本研究では,大言語モデル(LLM)における多語動詞と呼ばれる動詞-粒子の組み合わせの内部表現について検討する。
我々は,2つの異なる動詞-粒子構成において,各階層の表象を解析する。例えば,'give up'のようなフレーズ動詞と,'look at'のような前置動詞である。
論文 参考訳(メタデータ) (2025-02-07T09:49:13Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Feature-rich multiplex lexical networks reveal mental strategies of
early language learning [0.7111443975103329]
FEature-Rich MUltiplex LEXical (FERMULEX) ネットワークについて述べる。
類似性は、知識のセマンティック/シンタクティック/音声学的側面にまたがる異種単語関連をモデル化する。
単語には、周波数、取得年齢、長さ、ポリセミーを含む多次元特徴埋め込みが組み込まれている。
論文 参考訳(メタデータ) (2022-01-13T16:44:51Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。