Fugu-MT 論文翻訳(概要): Auto-Regressive Next-Token Predictors are Universal Learners

論文の概要: Auto-Regressive Next-Token Predictors are Universal Learners

arxiv url: http://arxiv.org/abs/2309.06979v3
Date: Mon, 29 Jul 2024 20:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 22:49:41.797719
Title: Auto-Regressive Next-Token Predictors are Universal Learners
Title（参考訳）: 自己回帰型次世代予測器はユニバーサルラーナーである
Authors: Eran Malach,
Abstract要約: 線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似することができることを示す。また、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。
参考スコア（独自算出の注目度）: 17.416520406390415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models display remarkable capabilities in logical and mathematical reasoning, allowing them to solve complex tasks. Interestingly, these abilities emerge in networks trained on the simple task of next-token prediction. In this work, we present a theoretical framework for studying auto-regressive next-token predictors. We demonstrate that even simple models such as linear next-token predictors, trained on Chain-of-Thought (CoT) data, can approximate any function efficiently computed by a Turing machine. We introduce a new complexity measure -- length complexity -- which measures the number of intermediate tokens in a CoT sequence required to approximate some target function, and analyze the interplay between length complexity and other notions of complexity. Finally, we show experimentally that simple next-token predictors, such as linear networks and shallow Multi-Layer Perceptrons (MLPs), display non-trivial performance on text generation and arithmetic tasks. Our results demonstrate that the power of today's LLMs can be attributed, to a great extent, to the auto-regressive next-token training scheme, and not necessarily to a particular choice of architecture.
Abstract（参考訳）: 大規模言語モデルは論理的および数学的推論において顕著な能力を示し、複雑なタスクを解くことができる。興味深いことに、これらの能力は次世代の予測という単純なタスクに基づいて訓練されたネットワークに現れる。本研究では,自動回帰型次世代予測器の理論的枠組みを提案する。チェイン・オブ・ソート(CoT)データに基づいて訓練された線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似できることを示した。対象関数を近似するために必要なCoTシーケンスの中間トークン数を測定し、長さ複雑性と他の複雑性の概念との相互作用を分析する。最後に、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。我々の結果は、今日のLLMのパワーは、自動回帰的な次世代のトレーニングスキームに大きく寄与し、必ずしも特定のアーキテクチャの選択に寄与するわけではないことを証明している。

関連論文リスト

Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。 CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文参考訳（メタデータ） (2025-10-31T17:58:11Z)
How Reinforcement Learning After Next-Token Prediction Facilitates Learning [36.98696363889831]
本研究では,1つのタスクをコードする短い鎖と長い鎖の配列の混合分布から学習する。次点予測後の強化学習が自己回帰変換器の一般化を可能にすることを示す。
論文参考訳（メタデータ） (2025-10-13T15:04:00Z)
The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner [71.41162392872393]
本稿では,大規模言語モデルの長さ一般化能力を向上させるため,Turing Machine Imitation Learning (TAIL)を提案する。 TAILはコンピュータプログラムによってチューリングマシンの実行プロセスを模倣するチェーン・オブ・思想(CoT)データを合成する。ベルとホイッスルがなければ、TAILは様々なタスクにおけるQwen2.5-7Bの性能と同様に、長さの一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2025-07-17T17:50:07Z)
FOL-Pretrain: A complexity annotated corpus of first-order logic [16.061040115094592]
トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。 LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
論文参考訳（メタデータ） (2025-05-20T21:38:28Z)
Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP) 軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文参考訳（メタデータ） (2025-04-06T15:15:07Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Bilinear Sequence Regression: A Model for Learning from Long Sequences of High-dimensional Tokens [14.424050371971354]
トークン列の最も基本的なモデルの一つとして,双線形シーケンス回帰(BSR)を導入,研究する。トークン列のベクトル化や単純な線形回帰による学習に関して、最適な学習がもたらす改善を定量化する。
論文参考訳（メタデータ） (2024-10-24T15:44:03Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
Learning From Simplicial Data Based on Random Walks and 1D Convolutions [6.629765271909503]
ランダムウォークと高速1D畳み込みに基づく単純な複雑なニューラルネットワーク学習アーキテクチャ。実世界のデータセット上でSCRaWlを実証的に評価し、他の単純なニューラルネットワークよりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-04T13:27:22Z)
Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文参考訳（メタデータ） (2022-03-29T21:18:47Z)
Statistically Meaningful Approximation: a Case Study on Approximating Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文参考訳（メタデータ） (2021-07-28T04:28:55Z)
PAC-learning gains of Turing machines over circuits and neural networks [1.4502611532302039]
私達は最低記述の長さの原則を持って来ることができるサンプル効率の潜在的な利益を研究します。我々はチューリングマシンを用いて普遍的なモデルと回路を表現する。回路の複雑さと密接性における古典的オープン問題との密接な関係を浮き彫りにする。
論文参考訳（メタデータ） (2021-03-23T17:03:10Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)
Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文参考訳（メタデータ） (2020-04-13T23:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。