論文の概要: Memory Augmented Large Language Models are Computationally Universal
- arxiv url: http://arxiv.org/abs/2301.04589v1
- Date: Tue, 10 Jan 2023 02:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:10:13.089582
- Title: Memory Augmented Large Language Models are Computationally Universal
- Title(参考訳): メモリ拡張大言語モデルは計算的に普遍的である
- Authors: Dale Schuurmans
- Abstract要約: 変換器をベースとした大規模言語モデルは,外部メモリで拡張した場合に計算的に普遍的であることを示す。
我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンの実行を正確にシミュレートできることを確認した。
- 参考スコア(独自算出の注目度): 44.64529266193095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that transformer-based large language models are computationally
universal when augmented with an external memory. Any deterministic language
model that conditions on strings of bounded length is equivalent to a finite
automaton, hence computationally limited. However, augmenting such models with
a read-write memory creates the possibility of processing arbitrarily large
inputs and, potentially, simulating any algorithm. We establish that an
existing large language model, Flan-U-PaLM 540B, can be combined with an
associative read-write memory to exactly simulate the execution of a universal
Turing machine, $U_{15,2}$. A key aspect of the finding is that it does not
require any modification of the language model weights. Instead, the
construction relies solely on designing a form of stored instruction computer
that can subsequently be programmed with a specific set of prompts.
- Abstract(参考訳): 外部メモリを付加すると,トランスフォーマティブな大規模言語モデルが計算的に普遍的であることを示す。
有界長弦の条件が有限オートマトンと等価であるような決定論的言語モデルは、計算的に制限される。
しかし、このようなモデルを読み取り-書き込みメモリで拡張することで、任意に大きな入力を処理でき、アルゴリズムをシミュレートできる可能性がある。
我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンである$U_{15,2}$の実行を正確にシミュレートできることを確立する。
この発見の重要な側面は、言語モデルの重みを変更する必要がないことである。
代わりに、構築は、後に特定のプロンプトセットでプログラムできるストアド命令コンピュータの形式を設計することのみに依存する。
関連論文リスト
- On Languaging a Simulation Engine [6.17566001699186]
Lang2Simは、シミュレーションエンジンのランゲージング上で対話的なナビゲーションを可能にする言語間シミュレーションフレームワークである。
この研究は、シミュレーションエンジンのランゲージングの時代を解き放つための、インテリジェントなプラットフォームとしての言語モデルを確立する。
論文 参考訳(メタデータ) (2024-02-26T11:01:54Z) - PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse
Heterogeneous Computing [64.53242758625922]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。
さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-20T03:39:27Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-04T11:47:03Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z) - GMAT: Global Memory Augmentation for Transformers [45.584411593847406]
集中型アテンションベースの$textitglobal memory$$$M$$$ll L$でスパーストランスフォーマーブロックを拡張することを提案する。
私たちの拡張は、管理可能な$O(Mcdot(L+M))$メモリオーバーヘッドを持ち、以前のスパースソリューションとシームレスに統合できます。
論文 参考訳(メタデータ) (2020-06-05T07:50:40Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。