論文の概要: Implicit Optimization Bias of Next-Token Prediction in Linear Models
- arxiv url: http://arxiv.org/abs/2402.18551v2
- Date: Thu, 31 Oct 2024 17:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:25.071715
- Title: Implicit Optimization Bias of Next-Token Prediction in Linear Models
- Title(参考訳): 線形モデルにおける次点予測のインプシット最適化バイアス
- Authors: Christos Thrampoulidis,
- Abstract要約: NTP(Next-token Prediction)は、現代の言語モデルにおける主要なトレーニングパラダイムである。
勾配に基づく一般化により選択された解の構造的性質について検討する。
- 参考スコア(独自算出の注目度): 32.2896512612788
- License:
- Abstract: We initiate an investigation into the optimization properties of next-token prediction (NTP), the dominant training paradigm for modern language models. Specifically, we study the structural properties of the solutions selected by gradient-based optimizers among the many possible minimizers of the NTP objective. By framing NTP as cross-entropy minimization across distinct contexts, each tied with a sparse conditional probability distribution across a finite vocabulary of tokens, we introduce "NTP-separability conditions" that enable reaching the data-entropy lower bound. With this setup, and focusing on linear models with fixed context embeddings, we characterize the optimization bias of gradient descent (GD): Within the data subspace defined by the sparsity patterns of distinct contexts, GD selects parameters that equate the logits' differences of in-support tokens to their log-odds. In the orthogonal subspace, the GD parameters diverge in norm and select the direction that maximizes a margin specific to NTP. These findings extend previous research on implicit bias in one-hot classification to the NTP setting, highlighting key differences and prompting further research into the optimization and generalization properties of NTP, irrespective of the specific architecture used to generate the context embeddings.
- Abstract(参考訳): 我々は,現代言語モデルの主要な訓練パラダイムであるNext-token Prediction (NTP) の最適化特性について検討する。
具体的には, NTP 目的の多くの最小化要因のうち, 勾配型オプティマイザによって選択された解の構造特性について検討する。
NTPを異なる文脈におけるクロスエントロピー最小化としてフレーミングすることにより、それぞれがトークンの有限語彙にわたるスパース条件付き確率分布と結びつくことにより、データエントロピーの下界に到達できる「NTP分離条件」を導入する。
この設定により、固定されたコンテキスト埋め込みを伴う線形モデルに焦点を当て、勾配降下(GD)の最適化バイアスを特徴づける: 異なるコンテキストのスパーシティパターンによって定義されるデータサブ空間の中で、GDは、ロジットのインサポートトークンの差をログノードに近似するパラメータを選択する。
直交部分空間において、GDパラメータはノルムで分岐し、NTPに特有のマージンを最大化する方向を選択する。
これらの知見は、1ホット分類における暗黙のバイアスに関する以前の研究をNTP設定に拡張し、重要な違いを強調し、文脈埋め込みを生成するために使用される特定のアーキテクチャに関係なく、NTPの最適化と一般化特性に関するさらなる研究を促した。
関連論文リスト
- Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations [24.211603400355756]
大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
得られたモデル表現の幾何学的特性に対する言語パターンのマッピングにNTPがどう影響するかを考察する。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-08-27T21:46:47Z) - RoPINN: Region Optimized Physics-Informed Neural Networks [66.38369833561039]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法として広く応用されている。
本稿では,地域最適化としての新たな訓練パラダイムを提案し,理論的に検討する。
実践的なトレーニングアルゴリズムであるRerea Optimized PINN(RoPINN)は、この新しいパラダイムからシームレスに派生している。
論文 参考訳(メタデータ) (2024-05-23T09:45:57Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Exploiting Inferential Structure in Neural Processes [15.058161307401864]
ニューラルネットワーク(NP)は、コンテキストセットに基づいて高速な適応を行う能力によって、魅力的である。
我々は、NPの潜伏変数にグラフィカルモデルで定義されたリッチな事前定義を与えることができるフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-27T03:01:43Z) - Neural Processes with Stochastic Attention: Paying more attention to the
context dataset [11.301294319986477]
ニューラルプロセス(NP)は、与えられたコンテキストデータセットに基づいて、目に見えないデータポイントを完成させることを目的としている。
本稿では,適切なコンテキスト情報を取得するために,NPに対する注意機構を提案する。
提案手法は様々な領域において従来のNPよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-04-11T23:57:19Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z) - Deep connections between learning from limited labels & physical
parameter estimation -- inspiration for regularization [0.0]
PDE制約最適化におけるモデルパラメータの明示的な正規化は、ネットワーク出力の正規化に変換されることを示す。
ハイパースペクトルイメージングの例は、最適正規化パラメータのクロスバリデーションと共に最小の事前情報がセグメンテーション精度を高めることを示している。
論文 参考訳(メタデータ) (2020-03-17T19:33:50Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。