論文の概要: Auto-Regressive Next-Token Predictors are Universal Learners
- arxiv url: http://arxiv.org/abs/2309.06979v1
- Date: Wed, 13 Sep 2023 14:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:01:05.099608
- Title: Auto-Regressive Next-Token Predictors are Universal Learners
- Title(参考訳): 自己回帰型次世代予測は普遍学習者である
- Authors: Eran Malach
- Abstract要約: 線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似することができることを示す。
また、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。
- 参考スコア(独自算出の注目度): 17.416520406390415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models display remarkable capabilities in logical and
mathematical reasoning, allowing them to solve complex tasks. Interestingly,
these abilities emerge in networks trained on the simple task of next-token
prediction. In this work, we present a theoretical framework for studying
auto-regressive next-token predictors. We demonstrate that even simple models
such as linear next-token predictors, trained on Chain-of-Thought (CoT) data,
can approximate any function efficiently computed by a Turing machine. We
introduce a new complexity measure -- length complexity -- which measures the
number of intermediate tokens in a CoT sequence required to approximate some
target function, and analyze the interplay between length complexity and other
notions of complexity. Finally, we show experimentally that simple next-token
predictors, such as linear networks and shallow Multi-Layer Perceptrons (MLPs),
display non-trivial performance on text generation and arithmetic tasks. Our
results demonstrate that the power of language models can be attributed, to a
great extent, to the auto-regressive next-token training scheme, and not
necessarily to a particular choice of architecture.
- Abstract(参考訳): 大きな言語モデルは論理的および数学的推論において顕著な能力を示し、複雑なタスクを解決できる。
興味深いことに、これらの能力は次の予測の単純なタスクで訓練されたネットワークに現れる。
本研究では,自動回帰型次世代予測器の理論的枠組みを提案する。
チェイン・オブ・ソート(CoT)データに基づいて訓練された線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似できることを示した。
対象関数を近似するために必要なCoTシーケンスの中間トークン数を測定し、長さ複雑性と他の複雑性の概念との相互作用を分析する。
最後に,線形ネットワークや浅層多層パーセプトロン (mlps) などの単純な次分岐予測器が,テキスト生成や演算タスクにおいて非自明な性能を示すことを実験的に示す。
この結果から, 言語モデルのパワーは, 自己回帰型次世代学習方式に大きく寄与し, 必ずしも特定のアーキテクチャの選択に寄与するものではないことがわかった。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Neural Networks Are Implicit Decision Trees: The Hierarchical Simplicity
Bias [0.0]
単純な特徴と複雑な特徴が異なるレベルの予測能力を示すシナリオを考察するために,不均衡ラベル結合と呼ばれる新しい手法を導入する。
トレーニングされたネットワークは、トレーニングセット内のラベルとどのように相関するかに応じて、入力機能の上昇する複雑さを予測します。
この観察は、ニューラルネットワークが刺激的な特徴の存在下でコア特徴を学習しているという直接的な証拠を提供する。
論文 参考訳(メタデータ) (2023-11-05T11:27:03Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - PAC-learning gains of Turing machines over circuits and neural networks [1.4502611532302039]
私達は最低記述の長さの原則を持って来ることができるサンプル効率の潜在的な利益を研究します。
我々はチューリングマシンを用いて普遍的なモデルと回路を表現する。
回路の複雑さと密接性における古典的オープン問題との密接な関係を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-23T17:03:10Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - Tensor Networks for Probabilistic Sequence Modeling [7.846449972735859]
シーケンスデータの確率的モデリングには,一様行列積状態(u-MPS)モデルを用いる。
次に、訓練されたu-MPSに対して、様々な条件分布から効率的にサンプリングできる新しい生成アルゴリズムを提案する。
合成テキストデータと実テキストデータを用いたシーケンスモデリング実験は、U-MPSが様々なベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T17:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。