論文の概要: How Powerful are Decoder-Only Transformer Neural Models?
- arxiv url: http://arxiv.org/abs/2305.17026v3
- Date: Fri, 2 Feb 2024 18:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:30:31.595581
- Title: How Powerful are Decoder-Only Transformer Neural Models?
- Title(参考訳): デコーダのみのトランスフォーマーモデルはどの程度強力か?
- Authors: Jesse Roberts
- Abstract要約: GPT-xで採用されている基礎技術のチューリング完全性に対処する最初の研究である。
単語埋め込みの空間性/圧縮性はチューリング完全性を維持する上で重要な考慮事項であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this article we prove that the general transformer neural model
undergirding modern large language models (LLMs) is Turing complete under
reasonable assumptions. This is the first work to directly address the Turing
completeness of the underlying technology employed in GPT-x as past work has
focused on the more expressive, full auto-encoder transformer architecture.
From this theoretical analysis, we show that the sparsity/compressibility of
the word embedding is an important consideration for Turing completeness to
hold. We also show that Transformers are are a variant of B machines studied by
Hao Wang.
- Abstract(参考訳): 本稿では,現代大言語モデル (LLM) に基づく一般変圧器ニューラルモデルが,合理的な仮定の下でチューリング完全であることを証明する。
これは、gpt-xで採用されている基礎技術のチューリング完全性に直接対処する最初の仕事であり、より表現力に富み、完全なオートエンコーダトランスフォーマアーキテクチャにフォーカスしてきた。
この理論解析から, 単語埋め込みの空間/圧縮性は, チューリング完全性を維持する上で重要な考慮事項であることを示す。
また、Transformer は Hao Wang が研究した B マシンの変種であることを示す。
関連論文リスト
- Transformers are Expressive, But Are They Expressive Enough for
Regression? [43.123290672073814]
我々は変換器が連続関数を確実に近似するのに苦労し、分割的に一定間隔の近似に頼っていることを論じる。
我々の貢献には、関数近似におけるトランスフォーマーの極限の根元を示す理論的解析と、その限界を検証するための広範な実験が含まれる。
論文 参考訳(メタデータ) (2024-02-23T18:12:53Z) - Repeat After Me: Transformers are Better than State Space Models at
Copying [57.37277256818516]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - On the Computational Power of Transformers and its Implications in
Sequence Modeling [10.497742214344855]
特に、位置エンコーディング、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。
バニラ変換器がチューリング完全であることを示すための代替的で単純な証明を提供する。
さらに、ネットワークのチューリング完全性に対する各コンポーネントの必要性を分析する。
論文 参考訳(メタデータ) (2020-06-16T16:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。