論文の概要: On the Geometry of Semantics in Next-token Prediction
- arxiv url: http://arxiv.org/abs/2505.08348v1
- Date: Tue, 13 May 2025 08:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.490047
- Title: On the Geometry of Semantics in Next-token Prediction
- Title(参考訳): 次世代予測における意味論の幾何学について
- Authors: Yize Zhao, Christos Thrampoulidis,
- Abstract要約: 現代の言語モデルは、次世代の予測によってのみ訓練されているにもかかわらず、言語的な意味を捉えている。
本研究では,この概念的にシンプルな学習目標が,潜在意味概念と文法概念を抽出し,符号化するモデルにどのように寄与するかを検討する。
我々の研究は、分布意味論、神経崩壊幾何学、ニューラルネットワークトレーニングのダイナミクスを橋渡しし、NTPの暗黙のバイアスがどのように言語モデルにおける意味表現の出現を形作るかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 27.33243506775655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models demonstrate a remarkable ability to capture linguistic meaning despite being trained solely through next-token prediction (NTP). We investigate how this conceptually simple training objective leads models to extract and encode latent semantic and grammatical concepts. Our analysis reveals that NTP optimization implicitly guides models to encode concepts via singular value decomposition (SVD) factors of a centered data-sparsity matrix that captures next-word co-occurrence patterns. While the model never explicitly constructs this matrix, learned word and context embeddings effectively factor it to capture linguistic structure. We find that the most important SVD factors are learned first during training, motivating the use of spectral clustering of embeddings to identify human-interpretable semantics, including both classical k-means and a new orthant-based method directly motivated by our interpretation of concepts. Overall, our work bridges distributional semantics, neural collapse geometry, and neural network training dynamics, providing insights into how NTP's implicit biases shape the emergence of meaning representations in language models.
- Abstract(参考訳): 現代の言語モデルは、NTP(Next-token Prediction)によってのみ訓練されているにもかかわらず、言語的意味を捉える驚くべき能力を示している。
本研究では,この概念的にシンプルな学習目標が,潜在意味概念と文法概念を抽出し,符号化するモデルにどのように寄与するかを検討する。
解析の結果,NTP最適化は,次の単語共起パターンをキャプチャする集中型データスパーシティ行列の特異値分解(SVD)因子を介して,モデルを暗黙的に符号化することがわかった。
モデルは、この行列を明示的に構成することはないが、学習された単語と文脈の埋め込みは、言語構造を捉えるために効果的にそれを分解する。
SVDの最も重要な要素は、まずトレーニング中に学習され、古典的なk-meansと、私たちの概念の解釈によって直接動機づけられた新しいオルサントベースの手法の両方を含む、人間の解釈可能な意味を識別するために、埋め込みのスペクトルクラスタリングの使用が動機付けられる。
全体として、我々の研究は、分散意味論、神経崩壊幾何学、ニューラルネットワークトレーニングのダイナミクスを橋渡しし、NTPの暗黙のバイアスがどのように言語モデルにおける意味表現の出現を形作るかについての洞察を提供する。
関連論文リスト
- Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。