Fugu-MT 論文翻訳(概要): Memory Augmented Large Language Models are Computationally Universal

論文の概要: Memory Augmented Large Language Models are Computationally Universal

arxiv url: http://arxiv.org/abs/2301.04589v1
Date: Tue, 10 Jan 2023 02:37:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-12 17:10:13.089582
Title: Memory Augmented Large Language Models are Computationally Universal
Title（参考訳）: メモリ拡張大言語モデルは計算的に普遍的である
Authors: Dale Schuurmans
Abstract要約: 変換器をベースとした大規模言語モデルは,外部メモリで拡張した場合に計算的に普遍的であることを示す。我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンの実行を正確にシミュレートできることを確認した。
参考スコア（独自算出の注目度）: 44.64529266193095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that transformer-based large language models are computationally universal when augmented with an external memory. Any deterministic language model that conditions on strings of bounded length is equivalent to a finite automaton, hence computationally limited. However, augmenting such models with a read-write memory creates the possibility of processing arbitrarily large inputs and, potentially, simulating any algorithm. We establish that an existing large language model, Flan-U-PaLM 540B, can be combined with an associative read-write memory to exactly simulate the execution of a universal Turing machine, $U_{15,2}$. A key aspect of the finding is that it does not require any modification of the language model weights. Instead, the construction relies solely on designing a form of stored instruction computer that can subsequently be programmed with a specific set of prompts.
Abstract（参考訳）: 外部メモリを付加すると,トランスフォーマティブな大規模言語モデルが計算的に普遍的であることを示す。有界長弦の条件が有限オートマトンと等価であるような決定論的言語モデルは、計算的に制限される。しかし、このようなモデルを読み取り-書き込みメモリで拡張することで、任意に大きな入力を処理でき、アルゴリズムをシミュレートできる可能性がある。我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンである$U_{15,2}$の実行を正確にシミュレートできることを確立する。この発見の重要な側面は、言語モデルの重みを変更する必要がないことである。代わりに、構築は、後に特定のプロンプトセットでプログラムできるストアド命令コンピュータの形式を設計することのみに依存する。

関連論文リスト

Constant Bit-size Transformers Are Turing Complete [8.38684825915246]
任意の長さの入力で動くチューリングマシンは、定ビットサイズの変圧器でシミュレートできることを示す。提案手法は,チューリング完全計算モデルであるPostマシンのシミュレーションに依存する。
論文参考訳（メタデータ） (2025-05-22T02:45:38Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Autoregressive Large Language Models are Computationally Universal [59.34397993748194]
変換器に基づく言語モデルの自己回帰復号化により,普遍計算が実現可能であることを示す。まず、2027年の生産規則を持つラグシステムにより、普遍チューリングマシンをシミュレートできることを示す。我々は、チャーチ・チューリングの論文により、拡張自己回帰(greedy)復号化によるgemini-1.5-pro-001が汎用コンピュータであると結論付けた。
論文参考訳（メタデータ） (2024-10-04T06:05:17Z)
A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文参考訳（メタデータ） (2024-05-07T17:47:57Z)
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文参考訳（メタデータ） (2024-04-11T15:27:22Z)
On Languaging a Simulation Engine [6.17566001699186]
Lang2Simは、シミュレーションエンジンのランゲージング上で対話的なナビゲーションを可能にする言語間シミュレーションフレームワークである。この研究は、シミュレーションエンジンのランゲージングの時代を解き放つための、インテリジェントなプラットフォームとしての言語モデルを確立する。
論文参考訳（メタデータ） (2024-02-26T11:01:54Z)
Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2022-05-25T11:37:29Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-02-04T11:47:03Z)
Explicitly Modeling Syntax in Language Models with Incremental Parsing and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文参考訳（メタデータ） (2020-10-21T17:39:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。