論文の概要: ParaFormer: Shallow Parallel Transformers with Progressive Approximation
- arxiv url: http://arxiv.org/abs/2510.15425v1
- Date: Fri, 17 Oct 2025 08:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.536692
- Title: ParaFormer: Shallow Parallel Transformers with Progressive Approximation
- Title(参考訳): Paraformer: プログレッシブ近似を用いた浅層並列変換器
- Authors: Wei Wang, Xiao-Yong Wei, Qing Li,
- Abstract要約: ParaFormerは、構造と計算の両方において真の並列性のために設計された浅層トランスフォーマーアーキテクチャである。
理論的解析により,それらの性能は層間協調による漸進的近似に依存していることが示された。
ParaFormerは最大15.07倍のモデル圧縮をサポートし、適応型継続的学習のためのモデル拡張を容易にする。
- 参考スコア(独自算出の注目度): 14.82319078008725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread 'deeper is better' philosophy has driven the creation of architectures like ResNet and Transformer, which achieve high performance by stacking numerous layers. However, increasing model depth comes with challenges such as longer training times, higher inference latency, and impracticality on resource-constrained devices. To address these issues, we propose ParaFormer, a shallow Transformer architecture designed for true parallelism in both structure and computation. By formulating standard Transformers as function approximators in closed-form, our theoretical analysis shows that their performance relies on inter-layer collaboration for progressive approximation, rather than depth itself. While deep Transformers enforce this collaboration through sequential designs, we demonstrate that such collaboration is not inherently tied to sequential structures. ParaFormer removes the sequential constraint by organizing layers into parallel branches, enforcing inter-layer collaboration algorithmically. Specifically, we implement progressive approximation, ensuring that each new branch further reduces the loss from preceding branches, enabling faster convergence. Extensive experiments validate ParaFormer's effectiveness, outperforming standard Transformers like ViT. Moreover, ParaFormer supports up to 15.07x model compression and facilitates model expansion for adaptive continuous learning. Experimental results on multi-GPU deployment demonstrate that ParaFormer is 3.30x faster than widely used parallelism solutions such as FairScale. These advancements stem from our closed-form formulation of Transformers based on the Universal Approximation Theorem, which not only explains the ``depth belief'' but also opens new avenues for designing efficient Transformer architectures. Source code: https://(open-upon-acceptance)
- Abstract(参考訳): の哲学は、多数のレイヤを積み重ねることで高いパフォーマンスを達成するResNetやTransformerのようなアーキテクチャの作成を促した。
しかし、モデル深度の増加には、長いトレーニング時間、推論レイテンシの向上、リソース制約のあるデバイスにおける非現実性といった課題が伴う。
これらの問題に対処するために、構造と計算の両方において真の並列性のために設計された浅層トランスフォーマーアーキテクチャであるParaFormerを提案する。
標準変換器を閉形式で関数近似器として定式化することにより、それらの性能は深度そのものではなく、階層間協調による進行近似に依存していることを示す。
ディープトランスフォーマーはシーケンシャルな設計を通じてこのコラボレーションを強制するが、そのようなコラボレーションは本質的にシーケンシャルな構造に結びついていないことを実証する。
ParaFormerは、レイヤを並列ブランチに整理することで、シーケンシャルな制約を取り除き、レイヤ間のコラボレーションをアルゴリズム的に実施する。
具体的には、進行近似を実装し、各新しいブランチが先行ブランチからの損失をさらに減らし、より高速な収束を可能にする。
大規模な実験によりParaFormerの有効性が検証され、ViTのような標準トランスフォーマーよりも優れていた。
さらに、ParaFormerは最大15.07倍のモデル圧縮をサポートし、適応型継続的学習のためのモデル拡張を容易にする。
マルチGPUデプロイメントの実験結果によると、ParaFormerはFairScaleのような広く使われている並列処理ソリューションよりも3.30倍高速である。
これらの進歩は、'depth belief'を説明できるだけでなく、効率的なトランスフォーマーアーキテクチャを設計するための新たな道を開くユニバーサル近似理論に基づくトランスフォーマーのクローズドフォームな定式化に起因している。
ソースコード:https://(open-upon-acceptance)
関連論文リスト
- PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - Aligning Transformers with Weisfeiler-Leman [5.0452971570315235]
グラフニューラルネットワークアーキテクチャは、理論的によく理解された表現力を提供する$k$-WL階層と一致している。
我々は,ラプラシアンPEやSPEなどの確立した位置符号化の研究を可能にする理論的枠組みを開発する。
我々は,大規模PCQM4Mv2データセットを用いてトランスフォーマーの評価を行い,最先端のPCQM4Mv2と競合する予測性能を示した。
論文 参考訳(メタデータ) (2024-06-05T11:06:33Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Make Deep Networks Shallow Again [6.647569337929869]
余剰接続の概念によってブレークスルーが達成されている。
残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。
言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。
論文 参考訳(メタデータ) (2023-09-15T14:18:21Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。