論文の概要: Understanding Transformers via N-gram Statistics
- arxiv url: http://arxiv.org/abs/2407.12034v2
- Date: Tue, 5 Nov 2024 10:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:48:00.776045
- Title: Understanding Transformers via N-gram Statistics
- Title(参考訳): N-gram Statistics による変圧器の理解
- Authors: Timothy Nguyen,
- Abstract要約: トランスフォーマーをベースとした大言語モデル(LLM)は言語に非常に熟練しているが、その動作の正確な理解はいまだに解明されていない。
本稿では, 単純なN-gram統計値から得られる関数の族を考えることにより, この方向への第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 4.713817702376468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer based large-language models (LLMs) display extreme proficiency with language yet a precise understanding of how they work remains elusive. One way of demystifying transformer predictions would be to describe how they depend on their context in terms of simple template functions. This paper takes a first step in this direction by considering families of functions (i.e. rules) formed out of simple N-gram based statistics of the training data. By studying how well these rulesets approximate transformer predictions, we obtain a variety of novel discoveries: a simple method to detect overfitting during training without using a holdout set, a quantitative measure of how transformers progress from learning simple to more complex statistical rules over the course of training, a model-variance criterion governing when transformer predictions tend to be described by N-gram rules, and insights into how well transformers can be approximated by N-gram rulesets in the limit where these rulesets become increasingly complex. In this latter direction, we find that for 79% and 68% of LLM next-token distributions on TinyStories and Wikipedia, respectively, their top-1 predictions agree with those provided by our N-gram rulesets.
- Abstract(参考訳): トランスフォーマーをベースとした大言語モデル(LLM)は言語に非常に熟練しているが、その動作の正確な理解はいまだに解明されていない。
トランスフォーマー予測のデミスティフィケーションの1つの方法は、単純なテンプレート関数の観点から、それらがどのようにコンテキストに依存するかを記述することである。
本論文は,N-gramに基づく単純な統計データから得られる関数の族(すなわち規則)を考えることにより,この方向への第一歩を踏み出す。
これらの規則がいかにしてトランスフォーマー予測を近似するかを研究することで、ホールトアウトセットを使わずにトレーニング中のオーバーフィッティングを検出する単純な方法、トレーニング中に単純からより複雑な統計規則を学習する方法の定量的尺度、トランスフォーマー予測がN-gramルールによって記述される傾向にある場合のモデル分散基準、そしてこれらの規則セットがますます複雑になる限界において、トランスフォーマーがN-gramルールセットによっていかにうまく近似できるかについての洞察など、様々な新しい発見が得られる。
後者の方向では、TinyStories と Wikipedia の LLM の次点ディストリビューションの 79% と 68% に対して、上位1 の予測は、私たちの N-gram ルールセットが提供するものと一致している。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文 参考訳(メタデータ) (2024-10-02T17:30:21Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。
線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。
我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文 参考訳(メタデータ) (2024-06-05T01:47:40Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。