Fugu-MT 論文翻訳(概要): On the Expressive Power of a Variant of the Looped Transformer

論文の概要: On the Expressive Power of a Variant of the Looped Transformer

arxiv url: http://arxiv.org/abs/2402.13572v1
Date: Wed, 21 Feb 2024 07:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:45:26.372757
Title: On the Expressive Power of a Variant of the Looped Transformer
Title（参考訳）: ループ変圧器の変種表現力について
Authors: Yihang Gao, Chuanyang Zheng, Enze Xie, Han Shi, Tianyang Hu, Yu Li, Michael K. Ng, Zhenguo Li, Zhaoqiang Liu
Abstract要約: 我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
参考スコア（独自算出の注目度）: 83.30272757948829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Besides natural language processing, transformers exhibit extraordinary performance in solving broader applications, including scientific computing and computer vision. Previous works try to explain this from the expressive power and capability perspectives that standard transformers are capable of performing some algorithms. To empower transformers with algorithmic capabilities and motivated by the recently proposed looped transformer (Yang et al., 2024; Giannou et al., 2023), we design a novel transformer block, dubbed Algorithm Transformer (abbreviated as AlgoFormer). Compared with the standard transformer and vanilla looped transformer, the proposed AlgoFormer can achieve significantly higher expressiveness in algorithm representation when using the same number of parameters. In particular, inspired by the structure of human-designed learning algorithms, our transformer block consists of a pre-transformer that is responsible for task pre-processing, a looped transformer for iterative optimization algorithms, and a post-transformer for producing the desired results after post-processing. We provide theoretical evidence of the expressive power of the AlgoFormer in solving some challenging problems, mirroring human-designed algorithms. Furthermore, some theoretical and empirical results are presented to show that the designed transformer has the potential to be smarter than human-designed algorithms. Experimental results demonstrate the empirical superiority of the proposed transformer in that it outperforms the standard transformer and vanilla looped transformer in some challenging tasks.
Abstract（参考訳）: 自然言語処理の他に、トランスフォーマーは科学計算やコンピュータビジョンなど幅広い応用を解く上で非常に優れた性能を発揮する。以前の研究では、標準的なトランスフォーマーがいくつかのアルゴリズムを実行できるという表現力と能力の観点から、これを説明しようと試みている。最近提案されたループ変換器(Yang et al., 2024; Giannou et al., 2023)によって動機付けられたアルゴリズム能力を持つトランスフォーマーを強化するため、アルゴリズム変換器(AlgoFormer)と呼ばれる新しいトランスフォーマーブロックを設計する。標準変圧器やバニラループ変圧器と比較して,同一数のパラメータを用いた場合,アルゴリズム表現の表現性が著しく向上した。特に,人間の設計した学習アルゴリズムの構造にインスパイアされて,タスク前処理に責任を持つ事前変換器,反復最適化アルゴリズムのためのループ変換器,後処理後に所望の結果を生成する後変換器から構成される。我々は,algoformerの表現力に関する理論的証拠を提供し,人間設計アルゴリズムを反映させる。さらに, 設計したトランスフォーマーが, 人間が設計したアルゴリズムよりもスマートになる可能性を示すために, 理論的および実証的な結果が提示された。実験結果から,提案した変圧器は標準的な変圧器やバニラループ型変圧器よりも高い性能を示した。

関連論文リスト

Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文参考訳（メタデータ） (2025-01-01T07:05:32Z)
Transformers are Expressive, But Are They Expressive Enough for Regression? [38.369337945109855]
この結果から,トランスフォーマーはスムーズな関数を確実に近似するのに苦労し,分割的に一定間隔の近似に頼っていることがわかった。これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
論文参考訳（メタデータ） (2024-02-23T18:12:53Z)
Looped Transformers are Better at Learning Learning Algorithms [16.98720552888865]
本稿ではループ変換器アーキテクチャとその学習手法について述べる。実験結果から, ループ変換器は標準変圧器に匹敵する性能を実現することが示唆された。
論文参考訳（メタデータ） (2023-11-21T08:32:38Z)
Linear attention is (maybe) all you need (to understand transformer optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文参考訳（メタデータ） (2023-10-02T10:48:42Z)
A Survey of Techniques for Optimizing Transformer Inference [3.6258657276072253]
近年、トランスフォーマーニューラルネットワークの性能と応用が飛躍的に上昇している。 ChatGPTのようなトランスフォーマーベースのネットワークは、一般的な男性の生活に影響を与えている。研究者は、あらゆるレベルの抽象化でトランスフォーマー推論を最適化する手法を提案している。
論文参考訳（メタデータ） (2023-07-16T08:50:50Z)
Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。 Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文参考訳（メタデータ） (2023-06-01T20:27:01Z)
Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文参考訳（メタデータ） (2023-05-30T02:44:49Z)
Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文参考訳（メタデータ） (2022-10-02T00:46:36Z)
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。 LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-04-16T11:30:26Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文参考訳（メタデータ） (2021-06-04T04:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。