論文の概要: Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations
- arxiv url: http://arxiv.org/abs/2408.15417v1
- Date: Tue, 27 Aug 2024 21:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:42:47.166976
- Title: Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations
- Title(参考訳): 次世代予測のインシシシト幾何学:言語空間パターンからモデル表現へ
- Authors: Yize Zhao, Tina Behnia, Vala Vakilian, Christos Thrampoulidis,
- Abstract要約: 大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
得られたモデル表現の幾何学的特性に対する言語パターンのマッピングにNTPがどう影響するかを考察する。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
- 参考スコア(独自算出の注目度): 24.211603400355756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-token prediction (NTP) over large text corpora has become the go-to paradigm to train large language models. Yet, it remains unclear how NTP influences the mapping of linguistic patterns to geometric properties of the resulting model representations. We frame training of large language models as soft-label classification over sparse probabilistic label vectors, coupled with an analytical approximation that allows unrestricted generation of context embeddings. This approach links NTP training to rank-constrained, nuclear-norm regularized optimization in the logit domain, offering a framework for analyzing the geometry of word and context embeddings. In large embedding spaces, we find that NTP implicitly favors learning logits with a sparse plus low-rank structure. While the sparse component captures the co-occurrence frequency of context-word pairs, the orthogonal low-rank component, which becomes dominant as training progresses, depends solely on the sparsity pattern of the co-occurrence matrix. Consequently, when projected onto an appropriate subspace, representations of contexts that are followed by the same set of next-tokens collapse, a phenomenon we term subspace-collapse. We validate our findings on synthetic and small-scale real language datasets. Finally, we outline potential research directions aimed at deepening the understanding of NTP's influence on the learning of linguistic patterns and regularities.
- Abstract(参考訳): 大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
しかし、NTPが結果のモデル表現の幾何学的性質に対する言語パターンのマッピングにどう影響するかは、まだ不明である。
我々は、スパース確率ラベルベクトルに対するソフトラベル分類としての大規模言語モデルの訓練を、制約のない文脈埋め込みを可能にする解析的近似と組み合わせた。
このアプローチは、NTPトレーニングをロジット領域におけるランク制約付き核ノルム正規化最適化に結び付け、単語と文脈埋め込みの幾何学を解析するためのフレームワークを提供する。
大きな埋め込み空間では、NTPは暗黙的にスパース+ローランク構造でロジットを学習することを好んでいる。
スパース成分はコンテキストワード対の共起周波数をキャプチャするが、トレーニングの進行に伴って支配的な直交低ランク成分は、共起行列のスパースパターンにのみ依存する。
したがって、適切な部分空間に射影されたとき、次トーケンズ崩壊の同じ集合が続く文脈の表現は、部分空間崩壊(subspace-collapse)と呼ばれる現象である。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
最後に,NTPが言語パターンや規則性の学習に与える影響の理解を深めることを目的とした潜在的研究の方向性について概説する。
関連論文リスト
- Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Implicit Optimization Bias of Next-Token Prediction in Linear Models [32.2896512612788]
NTP(Next-token Prediction)は、現代の言語モデルにおける主要なトレーニングパラダイムである。
勾配に基づく一般化により選択された解の構造的性質について検討する。
論文 参考訳(メタデータ) (2024-02-28T18:34:53Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Rethinking Relational Encoding in Language Model: Pre-Training for
General Sequences [23.806325599416134]
言語モデル事前トレーニングは、非自然言語ドメインにおけるシーケンス毎の関係のモデリングに失敗する。
LMPTと深い構造保存メトリック学習を組み合わせ、よりリッチな埋め込みを生成するフレームワークを開発しています。
我々のアプローチは下流タスクで顕著なパフォーマンス改善を提供します。
論文 参考訳(メタデータ) (2021-03-18T15:51:04Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。