論文の概要: Next-token prediction capacity: general upper bounds and a lower bound for transformers
- arxiv url: http://arxiv.org/abs/2405.13718v2
- Date: Tue, 17 Sep 2024 00:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 22:10:43.445265
- Title: Next-token prediction capacity: general upper bounds and a lower bound for transformers
- Title(参考訳): 次トーケン予測能力:変圧器の一般上界と下界
- Authors: Liam Madden, Curtis Fox, Christos Thrampoulidis,
- Abstract要約: 本稿では,デコーダのみの変換器がコンテキストシーケンスに対して次トーケン分布を補間可能であることを示す。
暗記のための最小限のパラメータは、エントロピー下界へのモデルを訓練するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 24.31928133575083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a sequence of tokens, such as words, the task of next-token prediction is to predict the next-token conditional probability distribution. Decoder-only transformers have become effective models for this task, but their properties are still not fully understood. In particular, the largest number of distinct context sequences that a decoder-only transformer can interpolate next-token distributions for has not been established. To fill this gap, we prove upper and lower bounds on this number, which are equal up to a multiplicative constant. We prove these bounds in the general setting where next-token distributions can be arbitrary as well as the empirical setting where they are calculated from a finite number of document sequences. Our lower bounds are for one-layer multi-head decoder-only transformers and our proofs highlight an important injectivity property satisfied by self-attention. Furthermore, we provide numerical evidence that the minimal number of parameters for memorization is sufficient for being able to train the model to the entropy lower bound.
- Abstract(参考訳): 単語などのトークン列が与えられた場合、次のトークン予測のタスクは次のトークン条件の確率分布を予測することである。
デコーダのみの変換器はこのタスクに有効なモデルとなっているが、その特性はまだ完全には理解されていない。
特に、デコーダのみの変換器が次のToken分布を補間できる、最も多くの異なるコンテキストシーケンスが確立されていない。
このギャップを埋めるために、乗法定数に等しいこの数上の上界と下界を証明します。
これらの境界は、次トーケン分布を任意にできる一般設定と、有限個の文書列から計算される経験的設定で証明する。
我々の下界は1層多層デコーダのみの変圧器であり、この証明は自己注意によって満たされる重要な射影特性を浮き彫りにする。
さらに, 暗記のための最小パラメータ数が, エントロピー下界へのモデルトレーニングに十分であることを示す。
関連論文リスト
- Looking Beyond The Top-1: Transformers Determine Top Tokens In Order [13.032106683136394]
トップ1予測が修正された後、トランスフォーマーが層内で行う計算を解析する。
これらの飽和事象は、対応するトークンのランクの順に発生する。
この逐次飽和に対するタスク遷移のメカニズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T16:00:38Z) - Transformers are Universal In-context Learners [21.513210412394965]
深層変換器は、コンパクトなトークン領域を均一に、任意の精度で連続的なコンテキスト内マッピングを近似できることを示す。
我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
論文 参考訳(メタデータ) (2024-08-02T16:21:48Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - σ-GPTs: A New Approach to Autoregressive Models [19.84252724050016]
出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。
我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-15T08:22:47Z) - Predicting generalization performance with correctness discriminators [64.00420578048855]
未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
論文 参考訳(メタデータ) (2023-11-15T22:43:42Z) - An Attribution Method for Siamese Encoders [2.1163800956183776]
本稿では,複数の入力を持つモデルに対する積分勾配の原理を一般化することにより,シームズエンコーダの局所帰属法を導出する。
パイロットスタディでは、STでは少数のトークンペアが多くの予測を説明でき、名詞や動詞に焦点を絞っていることが示されている。
論文 参考訳(メタデータ) (2023-10-09T13:24:44Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - Addressing Token Uniformity in Transformers via Singular Value
Transformation [24.039280291845706]
トークンの均一性は、変圧器ベースのモデルでよく見られる。
より歪んだ特異値分布はトークンの均一性の問題を軽減することができることを示す。
論文 参考訳(メタデータ) (2022-08-24T22:44:09Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。