論文の概要: Memory Augmented Large Language Models are Computationally Universal
- arxiv url: http://arxiv.org/abs/2301.04589v1
- Date: Tue, 10 Jan 2023 02:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:10:13.089582
- Title: Memory Augmented Large Language Models are Computationally Universal
- Title(参考訳): メモリ拡張大言語モデルは計算的に普遍的である
- Authors: Dale Schuurmans
- Abstract要約: 変換器をベースとした大規模言語モデルは,外部メモリで拡張した場合に計算的に普遍的であることを示す。
我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンの実行を正確にシミュレートできることを確認した。
- 参考スコア(独自算出の注目度): 44.64529266193095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that transformer-based large language models are computationally
universal when augmented with an external memory. Any deterministic language
model that conditions on strings of bounded length is equivalent to a finite
automaton, hence computationally limited. However, augmenting such models with
a read-write memory creates the possibility of processing arbitrarily large
inputs and, potentially, simulating any algorithm. We establish that an
existing large language model, Flan-U-PaLM 540B, can be combined with an
associative read-write memory to exactly simulate the execution of a universal
Turing machine, $U_{15,2}$. A key aspect of the finding is that it does not
require any modification of the language model weights. Instead, the
construction relies solely on designing a form of stored instruction computer
that can subsequently be programmed with a specific set of prompts.
- Abstract(参考訳): 外部メモリを付加すると,トランスフォーマティブな大規模言語モデルが計算的に普遍的であることを示す。
有界長弦の条件が有限オートマトンと等価であるような決定論的言語モデルは、計算的に制限される。
しかし、このようなモデルを読み取り-書き込みメモリで拡張することで、任意に大きな入力を処理でき、アルゴリズムをシミュレートできる可能性がある。
我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンである$U_{15,2}$の実行を正確にシミュレートできることを確立する。
この発見の重要な側面は、言語モデルの重みを変更する必要がないことである。
代わりに、構築は、後に特定のプロンプトセットでプログラムできるストアド命令コンピュータの形式を設計することのみに依存する。
関連論文リスト
- Autoregressive Large Language Models are Computationally Universal [59.34397993748194]
変換器に基づく言語モデルの自己回帰復号化により,普遍計算が実現可能であることを示す。
まず、2027年の生産規則を持つラグシステムにより、普遍チューリングマシンをシミュレートできることを示す。
我々は、チャーチ・チューリングの論文により、拡張自己回帰(greedy)復号化によるgemini-1.5-pro-001が汎用コンピュータであると結論付けた。
論文 参考訳(メタデータ) (2024-10-04T06:05:17Z) - A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。
我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。
スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文 参考訳(メタデータ) (2024-05-07T17:47:57Z) - RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。
Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文 参考訳(メタデータ) (2024-04-11T15:27:22Z) - On Languaging a Simulation Engine [6.17566001699186]
Lang2Simは、シミュレーションエンジンのランゲージング上で対話的なナビゲーションを可能にする言語間シミュレーションフレームワークである。
この研究は、シミュレーションエンジンのランゲージングの時代を解き放つための、インテリジェントなプラットフォームとしての言語モデルを確立する。
論文 参考訳(メタデータ) (2024-02-26T11:01:54Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-04T11:47:03Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。