論文の概要: Implicit Bias of Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2402.18551v1
- Date: Wed, 28 Feb 2024 18:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 13:57:01.575615
- Title: Implicit Bias of Next-Token Prediction
- Title(参考訳): 次期予測の暗黙のバイアス
- Authors: Christos Thrampoulidis
- Abstract要約: Next-its Prediction (NTP) は、シーケンス内の次のトークンを予測する。
この研究は、NTPトレーニングを異なる経験的文脈上でのクロスエントロピー最小化として捉えている。
- 参考スコア(独自算出の注目度): 32.2896512612788
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Next-token prediction (NTP), the go-to training paradigm in training large
language models, involves predicting the next token in a sequence. Departing
from traditional one-hot classification, in NTP, multiple tokens with varying
frequencies follow each given context. This work frames NTP training as
cross-entropy minimization over distinct contexts, each associated with a
sparse empirical probability vector across a finite vocabulary. It then
addresses the following question: do gradient-based optimizers exhibit a bias
towards solutions with specific structure as the NTP training loss reaches its
lower bound (entropy)? Specifically, for linear NTP models trained using
gradient descent (GD), we make the following contributions: Firstly, we
determine NTP-separability conditions on the data, under which GD can attain
its lower bound. We also demonstrate that these conditions hold under
overparameterization. Secondly, we establish that the parameters of GD
projected onto an appropriate data subspace converge to the unique solution of
a system of linear equations, which requires the logits' difference of
in-support tokens to be equal to the log-ratio of their respective
probabilities. Meanwhile, on the orthogonal subspace, the parameters diverge
and converge in the direction of the solution of a max-margin quadratic
program, minimizing the Euclidean norm of parameters satisfying the
\NTP-separability conditions. Akin to prior research on implicit bias of
one-hot classification, our work opens exciting avenues for future research
that can lead to better understanding optimization, generalization and
robustness principles of models trained with NTP.
- Abstract(参考訳): 大規模言語モデルのトレーニングにおけるトレーニングパラダイムであるNext-token Prediction (NTP)では,次のトークンをシーケンスで予測する。
従来のワンホット分類とは別に、NTPでは、異なる周波数の複数のトークンがそれぞれのコンテキストに従っている。
この作業は、NTPトレーニングを異なる文脈上でのクロスエントロピー最小化として、それぞれ有限語彙にわたるスパース経験的確率ベクトルと関連付ける。
NTPトレーニング損失が下限(エントロピー)に達するにつれて、勾配に基づく最適化者は特定の構造を持つ解に偏りを示すだろうか?
具体的には、勾配降下 (GD) を用いて訓練された線形 NTP モデルに対して、以下の貢献をする: まず、GD が下限に達するようなデータ上の NTP 分離性条件を決定する。
また、これらの条件が過パラメータ化されることを示す。
次に,適切なデータ部分空間上に投影されたgdのパラメータを線形方程式系の一意な解に収束させることにより,各確率の対数比に等しく,in-supportトークンの対数差を求める。
一方、直交部分空間では、パラメータは極大二次プログラムの解の方向に分岐して収束し、 \NTP-分離条件を満たすパラメータのユークリッドノルムを最小化する。
従来の1ホット分類の暗黙のバイアスの研究と同様に、我々の研究は、NTPで訓練されたモデルの最適化、一般化、堅牢性の原則をよりよく理解するための、将来の研究へのエキサイティングな道を開く。
関連論文リスト
- Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Matching Normalizing Flows and Probability Paths on Manifolds [57.95251557443005]
連続正規化フロー (Continuous Normalizing Flows, CNFs) は、常微分方程式(ODE)を解くことによって、先行分布をモデル分布に変換する生成モデルである。
我々は,CNFが生成する確率密度パスと目標確率密度パスとの間に生じる新たな分岐系であるPPDを最小化して,CNFを訓練することを提案する。
PPDの最小化によって得られたCNFは、既存の低次元多様体のベンチマークにおいて、その可能性とサンプル品質が得られることを示す。
論文 参考訳(メタデータ) (2022-07-11T08:50:19Z) - FLIP: A flexible initializer for arbitrarily-sized parametrized quantum
circuits [105.54048699217668]
任意サイズのパラメタライズド量子回路のためのFLexible Initializerを提案する。
FLIPは任意の種類のPQCに適用することができ、初期パラメータの一般的なセットに頼る代わりに、成功したパラメータの構造を学ぶように調整されている。
本稿では, 3つのシナリオにおいてFLIPを用いることの利点を述べる。不毛な高原における問題ファミリ, 最大カット問題インスタンスを解くPQCトレーニング, 1次元フェルミ-ハッバードモデルの基底状態エネルギーを求めるPQCトレーニングである。
論文 参考訳(メタデータ) (2021-03-15T17:38:33Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z) - Meta-Learning Stationary Stochastic Process Prediction with
Convolutional Neural Processes [32.02612871707347]
提案するConvNPは,ニューラルプロセス(NP)に翻訳等価性を付与し,畳み込み条件NPを拡張して予測分布への依存性を許容する。
本研究では,1DにおけるConvNPの強い性能と一般化能力,回帰画像補完,実時間データを用いた各種タスクについて述べる。
論文 参考訳(メタデータ) (2020-07-02T18:25:27Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。