論文の概要: Implicit Bias of Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2402.18551v1
- Date: Wed, 28 Feb 2024 18:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 13:57:01.575615
- Title: Implicit Bias of Next-Token Prediction
- Title(参考訳): 次期予測の暗黙のバイアス
- Authors: Christos Thrampoulidis
- Abstract要約: Next-its Prediction (NTP) は、シーケンス内の次のトークンを予測する。
この研究は、NTPトレーニングを異なる経験的文脈上でのクロスエントロピー最小化として捉えている。
- 参考スコア(独自算出の注目度): 32.2896512612788
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Next-token prediction (NTP), the go-to training paradigm in training large
language models, involves predicting the next token in a sequence. Departing
from traditional one-hot classification, in NTP, multiple tokens with varying
frequencies follow each given context. This work frames NTP training as
cross-entropy minimization over distinct contexts, each associated with a
sparse empirical probability vector across a finite vocabulary. It then
addresses the following question: do gradient-based optimizers exhibit a bias
towards solutions with specific structure as the NTP training loss reaches its
lower bound (entropy)? Specifically, for linear NTP models trained using
gradient descent (GD), we make the following contributions: Firstly, we
determine NTP-separability conditions on the data, under which GD can attain
its lower bound. We also demonstrate that these conditions hold under
overparameterization. Secondly, we establish that the parameters of GD
projected onto an appropriate data subspace converge to the unique solution of
a system of linear equations, which requires the logits' difference of
in-support tokens to be equal to the log-ratio of their respective
probabilities. Meanwhile, on the orthogonal subspace, the parameters diverge
and converge in the direction of the solution of a max-margin quadratic
program, minimizing the Euclidean norm of parameters satisfying the
\NTP-separability conditions. Akin to prior research on implicit bias of
one-hot classification, our work opens exciting avenues for future research
that can lead to better understanding optimization, generalization and
robustness principles of models trained with NTP.
- Abstract(参考訳): 大規模言語モデルのトレーニングにおけるトレーニングパラダイムであるNext-token Prediction (NTP)では,次のトークンをシーケンスで予測する。
従来のワンホット分類とは別に、NTPでは、異なる周波数の複数のトークンがそれぞれのコンテキストに従っている。
この作業は、NTPトレーニングを異なる文脈上でのクロスエントロピー最小化として、それぞれ有限語彙にわたるスパース経験的確率ベクトルと関連付ける。
NTPトレーニング損失が下限(エントロピー)に達するにつれて、勾配に基づく最適化者は特定の構造を持つ解に偏りを示すだろうか?
具体的には、勾配降下 (GD) を用いて訓練された線形 NTP モデルに対して、以下の貢献をする: まず、GD が下限に達するようなデータ上の NTP 分離性条件を決定する。
また、これらの条件が過パラメータ化されることを示す。
次に,適切なデータ部分空間上に投影されたgdのパラメータを線形方程式系の一意な解に収束させることにより,各確率の対数比に等しく,in-supportトークンの対数差を求める。
一方、直交部分空間では、パラメータは極大二次プログラムの解の方向に分岐して収束し、 \NTP-分離条件を満たすパラメータのユークリッドノルムを最小化する。
従来の1ホット分類の暗黙のバイアスの研究と同様に、我々の研究は、NTPで訓練されたモデルの最適化、一般化、堅牢性の原則をよりよく理解するための、将来の研究へのエキサイティングな道を開く。
関連論文リスト
- Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations [24.211603400355756]
大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
得られたモデル表現の幾何学的特性に対する言語パターンのマッピングにNTPがどう影響するかを考察する。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-08-27T21:46:47Z) - RoPINN: Region Optimized Physics-Informed Neural Networks [66.38369833561039]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法として広く応用されている。
本稿では,地域最適化としての新たな訓練パラダイムを提案し,理論的に検討する。
実践的なトレーニングアルゴリズムであるRerea Optimized PINN(RoPINN)は、この新しいパラダイムからシームレスに派生している。
論文 参考訳(メタデータ) (2024-05-23T09:45:57Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Exploiting Inferential Structure in Neural Processes [15.058161307401864]
ニューラルネットワーク(NP)は、コンテキストセットに基づいて高速な適応を行う能力によって、魅力的である。
我々は、NPの潜伏変数にグラフィカルモデルで定義されたリッチな事前定義を与えることができるフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-27T03:01:43Z) - Neural Processes with Stochastic Attention: Paying more attention to the
context dataset [11.301294319986477]
ニューラルプロセス(NP)は、与えられたコンテキストデータセットに基づいて、目に見えないデータポイントを完成させることを目的としている。
本稿では,適切なコンテキスト情報を取得するために,NPに対する注意機構を提案する。
提案手法は様々な領域において従来のNPよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-04-11T23:57:19Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z) - Deep connections between learning from limited labels & physical
parameter estimation -- inspiration for regularization [0.0]
PDE制約最適化におけるモデルパラメータの明示的な正規化は、ネットワーク出力の正規化に変換されることを示す。
ハイパースペクトルイメージングの例は、最適正規化パラメータのクロスバリデーションと共に最小の事前情報がセグメンテーション精度を高めることを示している。
論文 参考訳(メタデータ) (2020-03-17T19:33:50Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。