論文の概要: Autoregressive Large Language Models are Computationally Universal
- arxiv url: http://arxiv.org/abs/2410.03170v1
- Date: Fri, 4 Oct 2024 06:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:14:31.082270
- Title: Autoregressive Large Language Models are Computationally Universal
- Title(参考訳): 自己回帰型大言語モデルは計算的に普遍的である
- Authors: Dale Schuurmans, Hanjun Dai, Francesco Zanini,
- Abstract要約: 変換器に基づく言語モデルの自己回帰復号化により,普遍計算が実現可能であることを示す。
まず、2027年の生産規則を持つラグシステムにより、普遍チューリングマシンをシミュレートできることを示す。
我々は、チャーチ・チューリングの論文により、拡張自己回帰(greedy)復号化によるgemini-1.5-pro-001が汎用コンピュータであると結論付けた。
- 参考スコア(独自算出の注目度): 59.34397993748194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that autoregressive decoding of a transformer-based language model can realize universal computation, without external intervention or modification of the model's weights. Establishing this result requires understanding how a language model can process arbitrarily long inputs using a bounded context. For this purpose, we consider a generalization of autoregressive decoding where, given a long input, emitted tokens are appended to the end of the sequence as the context window advances. We first show that the resulting system corresponds to a classical model of computation, a Lag system, that has long been known to be computationally universal. By leveraging a new proof, we show that a universal Turing machine can be simulated by a Lag system with 2027 production rules. We then investigate whether an existing large language model can simulate the behaviour of such a universal Lag system. We give an affirmative answer by showing that a single system-prompt can be developed for gemini-1.5-pro-001 that drives the model, under deterministic (greedy) decoding, to correctly apply each of the 2027 production rules. We conclude that, by the Church-Turing thesis, prompted gemini-1.5-pro-001 with extended autoregressive (greedy) decoding is a general purpose computer.
- Abstract(参考訳): 変換器をベースとした言語モデルの自己回帰復号化は,外部介入や重みの変更を伴わずに,普遍的な計算を実現することができることを示す。
この結果を確立するには、言語モデルがコンテキスト境界を使って任意の長さの入力を処理できるかを理解する必要がある。
この目的のために,コンテクストウィンドウが進行するにつれて,長い入力によって出力されたトークンがシーケンスの最後に付加される自己回帰復号の一般化を検討する。
まず、この結果が計算の古典的モデルであるラグシステムに対応していることを示す。
新しい証明を活用することで、2027年の生産規則を持つラグシステムにより、普遍的なチューリングマシンをシミュレートできることが示される。
次に,既存の大言語モデルがこのような普遍的なラグシステムの振る舞いをシミュレートできるかどうかを検討する。
本稿では,2027年の生産ルールのそれぞれを正しく適用するために,決定的(欲求的)デコーディングの下でモデルを動かすgemini-1.5-pro-001に対して,単一のシステムプロンプトを開発できることを示し,肯定的な回答を与える。
我々は、チャーチ・チューリングの論文でgemini-1.5-pro-001に拡張された自己回帰(greedy)デコーディングが汎用コンピュータであると結論付けた。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Sentence-Incremental Neural Coreference Resolution [32.13574453443377]
本稿では,シフト・リデュース法で参照境界をマークした後,段階的にクラスタを構築できる文増分ニューラルコア参照解決システムを提案する。
本システムは,(1)文書長の2次複雑さを高い計算コストで引き起こす最先端の非インクリメンタルモデル,(2)段階的に動作するが代名詞を超えて一般化しないメモリネットワークベースモデルである。
論文 参考訳(メタデータ) (2023-05-26T14:00:25Z) - Memory Augmented Large Language Models are Computationally Universal [44.64529266193095]
変換器をベースとした大規模言語モデルは,外部メモリで拡張した場合に計算的に普遍的であることを示す。
我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンの実行を正確にシミュレートできることを確認した。
論文 参考訳(メタデータ) (2023-01-10T02:37:44Z) - Recursive Decoding: A Situated Cognition Approach to Compositional
Generation in Grounded Language Understanding [0.0]
本稿では,Seq2seqモデルをトレーニングおよび使用するための新しい手順であるRecursive Decodingを提案する。
1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。
RDは、gSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。
論文 参考訳(メタデータ) (2022-01-27T19:13:42Z) - CGEMs: A Metric Model for Automatic Code Generation using GPT-3 [0.0]
本研究は,理論的証明を用いて,あるいはモンテカルロシミュレーション法を用いてAI生成コンテンツを検証することを目的とする。
この場合、後者の手法を用いて統計的にかなりの数のサンプルを検査・検証する。
コンパイル、ロジック変換へのNL記述、必要な編集数、一般的に使用されている静的コードメトリクスとNLPメトリクス。
論文 参考訳(メタデータ) (2021-08-23T13:28:57Z) - Imputer: Sequence Modelling via Imputation and Dynamic Programming [101.5705527605346]
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。