論文の概要: On the Expressive Power of a Variant of the Looped Transformer
- arxiv url: http://arxiv.org/abs/2402.13572v1
- Date: Wed, 21 Feb 2024 07:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:45:26.372757
- Title: On the Expressive Power of a Variant of the Looped Transformer
- Title(参考訳): ループ変圧器の変種表現力について
- Authors: Yihang Gao, Chuanyang Zheng, Enze Xie, Han Shi, Tianyang Hu, Yu Li,
Michael K. Ng, Zhenguo Li, Zhaoqiang Liu
- Abstract要約: 我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
- 参考スコア(独自算出の注目度): 83.30272757948829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Besides natural language processing, transformers exhibit extraordinary
performance in solving broader applications, including scientific computing and
computer vision. Previous works try to explain this from the expressive power
and capability perspectives that standard transformers are capable of
performing some algorithms. To empower transformers with algorithmic
capabilities and motivated by the recently proposed looped transformer (Yang et
al., 2024; Giannou et al., 2023), we design a novel transformer block, dubbed
Algorithm Transformer (abbreviated as AlgoFormer). Compared with the standard
transformer and vanilla looped transformer, the proposed AlgoFormer can achieve
significantly higher expressiveness in algorithm representation when using the
same number of parameters. In particular, inspired by the structure of
human-designed learning algorithms, our transformer block consists of a
pre-transformer that is responsible for task pre-processing, a looped
transformer for iterative optimization algorithms, and a post-transformer for
producing the desired results after post-processing. We provide theoretical
evidence of the expressive power of the AlgoFormer in solving some challenging
problems, mirroring human-designed algorithms. Furthermore, some theoretical
and empirical results are presented to show that the designed transformer has
the potential to be smarter than human-designed algorithms. Experimental
results demonstrate the empirical superiority of the proposed transformer in
that it outperforms the standard transformer and vanilla looped transformer in
some challenging tasks.
- Abstract(参考訳): 自然言語処理の他に、トランスフォーマーは科学計算やコンピュータビジョンなど幅広い応用を解く上で非常に優れた性能を発揮する。
以前の研究では、標準的なトランスフォーマーがいくつかのアルゴリズムを実行できるという表現力と能力の観点から、これを説明しようと試みている。
最近提案されたループ変換器(Yang et al., 2024; Giannou et al., 2023)によって動機付けられたアルゴリズム能力を持つトランスフォーマーを強化するため、アルゴリズム変換器(AlgoFormer)と呼ばれる新しいトランスフォーマーブロックを設計する。
標準変圧器やバニラループ変圧器と比較して,同一数のパラメータを用いた場合,アルゴリズム表現の表現性が著しく向上した。
特に,人間の設計した学習アルゴリズムの構造にインスパイアされて,タスク前処理に責任を持つ事前変換器,反復最適化アルゴリズムのためのループ変換器,後処理後に所望の結果を生成する後変換器から構成される。
我々は,algoformerの表現力に関する理論的証拠を提供し,人間設計アルゴリズムを反映させる。
さらに, 設計したトランスフォーマーが, 人間が設計したアルゴリズムよりもスマートになる可能性を示すために, 理論的および実証的な結果が提示された。
実験結果から,提案した変圧器は標準的な変圧器やバニラループ型変圧器よりも高い性能を示した。
関連論文リスト
- Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。
変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。
変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Looped Transformers are Better at Learning Learning Algorithms [16.98720552888865]
本稿ではループ変換器アーキテクチャとその学習手法について述べる。
実験結果から, ループ変換器は標準変圧器に匹敵する性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-11-21T08:32:38Z) - A Survey of Techniques for Optimizing Transformer Inference [3.6258657276072253]
近年、トランスフォーマーニューラルネットワークの性能と応用が飛躍的に上昇している。
ChatGPTのようなトランスフォーマーベースのネットワークは、一般的な男性の生活に影響を与えている。
研究者は、あらゆるレベルの抽象化でトランスフォーマー推論を最適化する手法を提案している。
論文 参考訳(メタデータ) (2023-07-16T08:50:50Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。