Fugu-MT 論文翻訳(概要): Transformers, parallel computation, and logarithmic depth

論文の概要: Transformers, parallel computation, and logarithmic depth

arxiv url: http://arxiv.org/abs/2402.09268v1
Date: Wed, 14 Feb 2024 15:54:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 14:43:53.280305
Title: Transformers, parallel computation, and logarithmic depth
Title（参考訳）: 変圧器、並列計算、対数深さ
Authors: Clayton Sanford, Daniel Hsu, Matus Telgarsky
Abstract要約: 我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
参考スコア（独自算出の注目度）: 33.659870765923884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that a constant number of self-attention layers can efficiently simulate, and be simulated by, a constant number of communication rounds of Massively Parallel Computation. As a consequence, we show that logarithmic depth is sufficient for transformers to solve basic computational tasks that cannot be efficiently solved by several other neural sequence models and sub-quadratic transformer approximations. We thus establish parallelism as a key distinguishing property of transformers.
Abstract（参考訳）: 一定数の自己着床層を効率的にシミュレートし,超並列計算の一定数の通信ラウンドによってシミュレートできることを示す。その結果,複数のニューラルシーケンスモデルやサブクアドラティックトランスフォーマー近似では効率的に解くことができない基本的な計算タスクをトランスフォーマーが解くには,対数深さが十分であることが示された。したがって、変換器の重要な区別特性として並列性を確立する。

関連論文リスト

RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文参考訳（メタデータ） (2025-02-18T09:34:31Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Positional Attention: Expressivity and Learnability of Algorithmic Computation [6.181408276896225]
この研究は、アルゴリズム実行におけるトランスフォーマーにおける注意の役割をよりよく理解することを目的としている。位置対応変換器(位置対応変換器)は並列計算モデルと同じ表現性を持つことを示す。パラメータノルムにより良い理論的依存を示す一方で、特定のタスクはより多くの層を必要とする可能性がある。
論文参考訳（メタデータ） (2024-10-02T15:55:08Z)
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文参考訳（メタデータ） (2024-08-23T17:16:43Z)
Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。トランスにおける大きな埋め込み次元の必要性と役割を示す。また、注意層によって効率的に解ける自然変種も提示する。
論文参考訳（メタデータ） (2023-06-05T14:05:04Z)
Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文参考訳（メタデータ） (2023-05-30T02:44:49Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文参考訳（メタデータ） (2022-10-19T17:45:48Z)
The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文参考訳（メタデータ） (2022-07-02T03:49:34Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文参考訳（メタデータ） (2021-06-04T04:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。