論文の概要: On the Expressive Power of a Variant of the Looped Transformer
- arxiv url: http://arxiv.org/abs/2402.13572v1
- Date: Wed, 21 Feb 2024 07:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:45:26.372757
- Title: On the Expressive Power of a Variant of the Looped Transformer
- Title(参考訳): ループ変圧器の変種表現力について
- Authors: Yihang Gao, Chuanyang Zheng, Enze Xie, Han Shi, Tianyang Hu, Yu Li,
Michael K. Ng, Zhenguo Li, Zhaoqiang Liu
- Abstract要約: 我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
- 参考スコア(独自算出の注目度): 83.30272757948829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Besides natural language processing, transformers exhibit extraordinary
performance in solving broader applications, including scientific computing and
computer vision. Previous works try to explain this from the expressive power
and capability perspectives that standard transformers are capable of
performing some algorithms. To empower transformers with algorithmic
capabilities and motivated by the recently proposed looped transformer (Yang et
al., 2024; Giannou et al., 2023), we design a novel transformer block, dubbed
Algorithm Transformer (abbreviated as AlgoFormer). Compared with the standard
transformer and vanilla looped transformer, the proposed AlgoFormer can achieve
significantly higher expressiveness in algorithm representation when using the
same number of parameters. In particular, inspired by the structure of
human-designed learning algorithms, our transformer block consists of a
pre-transformer that is responsible for task pre-processing, a looped
transformer for iterative optimization algorithms, and a post-transformer for
producing the desired results after post-processing. We provide theoretical
evidence of the expressive power of the AlgoFormer in solving some challenging
problems, mirroring human-designed algorithms. Furthermore, some theoretical
and empirical results are presented to show that the designed transformer has
the potential to be smarter than human-designed algorithms. Experimental
results demonstrate the empirical superiority of the proposed transformer in
that it outperforms the standard transformer and vanilla looped transformer in
some challenging tasks.
- Abstract(参考訳): 自然言語処理の他に、トランスフォーマーは科学計算やコンピュータビジョンなど幅広い応用を解く上で非常に優れた性能を発揮する。
以前の研究では、標準的なトランスフォーマーがいくつかのアルゴリズムを実行できるという表現力と能力の観点から、これを説明しようと試みている。
最近提案されたループ変換器(Yang et al., 2024; Giannou et al., 2023)によって動機付けられたアルゴリズム能力を持つトランスフォーマーを強化するため、アルゴリズム変換器(AlgoFormer)と呼ばれる新しいトランスフォーマーブロックを設計する。
標準変圧器やバニラループ変圧器と比較して,同一数のパラメータを用いた場合,アルゴリズム表現の表現性が著しく向上した。
特に,人間の設計した学習アルゴリズムの構造にインスパイアされて,タスク前処理に責任を持つ事前変換器,反復最適化アルゴリズムのためのループ変換器,後処理後に所望の結果を生成する後変換器から構成される。
我々は,algoformerの表現力に関する理論的証拠を提供し,人間設計アルゴリズムを反映させる。
さらに, 設計したトランスフォーマーが, 人間が設計したアルゴリズムよりもスマートになる可能性を示すために, 理論的および実証的な結果が提示された。
実験結果から,提案した変圧器は標準的な変圧器やバニラループ型変圧器よりも高い性能を示した。
関連論文リスト
- Transformers are Expressive, But Are They Expressive Enough for Regression? [38.369337945109855]
この結果から,トランスフォーマーはスムーズな関数を確実に近似するのに苦労し,分割的に一定間隔の近似に頼っていることがわかった。
これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
論文 参考訳(メタデータ) (2024-02-23T18:12:53Z) - Looped Transformers are Better at Learning Learning Algorithms [16.98720552888865]
本稿ではループ変換器アーキテクチャとその学習手法について述べる。
実験結果から, ループ変換器は標準変圧器に匹敵する性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-11-21T08:32:38Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - A Survey of Techniques for Optimizing Transformer Inference [3.6258657276072253]
近年、トランスフォーマーニューラルネットワークの性能と応用が飛躍的に上昇している。
ChatGPTのようなトランスフォーマーベースのネットワークは、一般的な男性の生活に影響を与えている。
研究者は、あらゆるレベルの抽象化でトランスフォーマー推論を最適化する手法を提案している。
論文 参考訳(メタデータ) (2023-07-16T08:50:50Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。