Fugu-MT 論文翻訳(概要): SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood Filling

論文の概要: SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood Filling

arxiv url: http://arxiv.org/abs/2309.12578v1
Date: Fri, 22 Sep 2023 02:14:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 16:11:40.160789
Title: SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood Filling
Title（参考訳）: SPION:畳み込み洪水充填による変圧器の層幅スパース訓練
Authors: Bokyeong Yoon, Yoonsang Han, Gordon Euhyun Moon
Abstract要約: 本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。 New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 1.0128808054306186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparsifying the Transformer has garnered considerable interest, as training the Transformer is very computationally demanding. Prior efforts to sparsify the Transformer have either used a fixed pattern or data-driven approach to reduce the number of operations involving the computation of multi-head attention, which is the main bottleneck of the Transformer. However, existing methods suffer from inevitable problems, such as the potential loss of essential sequence features due to the uniform fixed pattern applied across all layers, and an increase in the model size resulting from the use of additional parameters to learn sparsity patterns in attention operations. In this paper, we propose a novel sparsification scheme for the Transformer that integrates convolution filters and the flood filling method to efficiently capture the layer-wise sparse pattern in attention operations. Our sparsification approach reduces the computational complexity and memory footprint of the Transformer during training. Efficient implementations of the layer-wise sparsified attention algorithm on GPUs are developed, demonstrating a new SPION that achieves up to 3.08X speedup over existing state-of-the-art sparse Transformer models, with better evaluation quality.
Abstract（参考訳）: Transformerのトレーニングは非常に計算的に要求されているため、Transformerのスパース化は大きな関心を集めている。従来、トランスフォーマーのスパーシフィケーションには、固定パターンまたはデータ駆動アプローチを使用して、トランスフォーマーの主要なボトルネックであるマルチヘッドアテンションの計算を含む操作数を削減する方法が用いられてきた。しかし,既存の手法では,すべての層にまたがる均一な固定パターンによる本質的な配列の特徴の潜在的な喪失や,注意操作におけるスパーシティパターンの学習に追加パラメータを用いることによるモデルサイズの増加など,必然的な問題に悩まされている。本稿では,畳み込みフィルタとフラッディング充填法を統合し,注意操作における層状スパースパターンを効率的に捕捉するトランスのスパルシフィケーション方式を提案する。我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。 GPU上でのレイヤーワイドな注意アルゴリズムの効率的な実装が開発され、既存の最先端スパーストランスフォーマーモデルよりも最大3.08倍のスピードアップを実現し、評価品質が向上した。

関連論文リスト

A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文参考訳（メタデータ） (2026-01-24T02:12:39Z)
Layer-Parallel Training for Transformers [3.799206695592991]
マルチレベル層並列手法を用いたトランスフォーマーの新しいトレーニング手法を提案する。トレーニングの前・後処理フェーズに対するマルチレベル並列インタイムアルゴリズムの適用により,層次元の並列加速度が達成される。我々は、この臨界遷移を検出し、シリアルトレーニングに切り替えるか、階層並列トレーニングの精度を体系的に向上させるアルゴリズムを開発した。
論文参考訳（メタデータ） (2026-01-13T23:12:53Z)
Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文参考訳（メタデータ） (2025-06-26T08:41:45Z)
A temporal scale transformer framework for precise remaining useful life prediction in fuel cells [10.899223392837936]
TS Transformer (Temporal Scale Transformer) は、逆変換器(i Transformer)の拡張版である。各タイムステップを入力トークンとして扱う従来のトランスフォーマーとは異なり、TSTransformerは異なる長さのシーケンスを異なる段階のトークンにマッピングし、シーケンス間モデリングを行う。局所的な特徴抽出を改善し、時間スケールの特徴を捉え、トークン数と計算コストを削減する。
論文参考訳（メタデータ） (2025-04-08T23:42:54Z)
RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文参考訳（メタデータ） (2025-02-18T09:34:31Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文参考訳（メタデータ） (2022-12-12T16:18:58Z)
Momentum Transformer: Closing the Performance Gap Between Self-attention and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文参考訳（メタデータ） (2022-08-01T02:37:49Z)
Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文参考訳（メタデータ） (2021-11-24T19:53:46Z)
Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU [19.103130032967663]
インクリメンタル処理により、対話システムは部分的な入力に基づいて応答できる。最近の作業では、再起動と増分によってトランスフォーマーを漸進的に適用しようと試みている。このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
論文参考訳（メタデータ） (2021-09-15T15:20:29Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)
The Cascade Transformer: an Application for Efficient Answer Sentence Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文参考訳（メタデータ） (2020-05-05T23:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。