論文の概要: Closed-Form Training Dynamics Reveal Learned Features and Linear Structure in Word2Vec-like Models
- arxiv url: http://arxiv.org/abs/2502.09863v2
- Date: Wed, 28 May 2025 15:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:27.262866
- Title: Closed-Form Training Dynamics Reveal Learned Features and Linear Structure in Word2Vec-like Models
- Title(参考訳): Word2Vec風モデルにおける閉形式学習ダイナミクスの学習特徴と線形構造
- Authors: Dhruva Karkada, James B. Simon, Yasaman Bahri, Michael R. DeWeese,
- Abstract要約: word2vecのような自己教師付き単語埋め込みアルゴリズムは、言語モデリングにおける表現学習を研究するための最小限の設定を提供する。
ダウンストリームタスクにおけるトレーニングダイナミクスと最終性能は、経験的に word2vec と非常によく似ていることを示す。
- 参考スコア(独自算出の注目度): 3.519547280344187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised word embedding algorithms such as word2vec provide a minimal setting for studying representation learning in language modeling. We examine the quartic Taylor approximation of the word2vec loss around the origin, and we show that both the resulting training dynamics and the final performance on downstream tasks are empirically very similar to those of word2vec. Our main contribution is to analytically solve for both the gradient flow training dynamics and the final word embeddings in terms of only the corpus statistics and training hyperparameters. The solutions reveal that these models learn orthogonal linear subspaces one at a time, each one incrementing the effective rank of the embeddings until model capacity is saturated. Training on Wikipedia, we find that each of the top linear subspaces represents an interpretable topic-level concept. Finally, we apply our theory to describe how linear representations of more abstract semantic concepts emerge during training; these can be used to complete analogies via vector addition.
- Abstract(参考訳): word2vecのような自己教師付き単語埋め込みアルゴリズムは、言語モデリングにおける表現学習を研究するための最小限の設定を提供する。
本稿では,単語2vecの損失の4次的テイラー近似について検討し,結果のトレーニングダイナミクスと下流タスクにおける最終性能がWord2vecと経験的に非常によく似ていることを示す。
我々の主な貢献は、勾配流のトレーニング力学と最終単語の埋め込みを、コーパス統計学とトレーニングハイパーパラメーターだけの観点から解析的に解くことである。
これらの解は、これらのモデルが1度に直交線型部分空間を学習し、それぞれがモデルのキャパシティが飽和するまで、埋め込みの有効ランクを増すことを示した。
ウィキペディアでトレーニングした結果、各上位線形部分空間は解釈可能なトピックレベルの概念を表していることがわかった。
最後に、我々の理論を適用して、より抽象的な意味概念の線型表現が訓練中にどのように現れるかを記述する。
関連論文リスト
- Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Action Model Learning with Guarantees [5.524804393257921]
本研究では,学習例と整合した仮説の探索としてタスクを解釈するバージョン空間に基づく行動モデル学習の理論を開発する。
我々の理論的発見は、問題のすべての解のコンパクトな表現を維持するオンラインアルゴリズムでインスタンス化される。
論文 参考訳(メタデータ) (2024-04-15T10:01:43Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Transparency at the Source: Evaluating and Interpreting Language Models
With Access to the True Distribution [4.01799362940916]
人工的な言語のようなデータを用いて、ニューラルネットワークモデルのトレーニング、評価、解釈を行う。
データは、巨大な自然言語コーパスから派生した巨大な確率文法を用いて生成される。
基礎となる真の情報源にアクセスすることで、異なる単語のクラス間の動的学習における顕著な違いと結果が示される。
論文 参考訳(メタデータ) (2023-10-23T12:03:01Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。