Fugu-MT 論文翻訳(概要): Full Stack Optimization of Transformer Inference: a Survey

論文の概要: Full Stack Optimization of Transformer Inference: a Survey

arxiv url: http://arxiv.org/abs/2302.14017v1
Date: Mon, 27 Feb 2023 18:18:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 14:23:29.821065
Title: Full Stack Optimization of Transformer Inference: a Survey
Title（参考訳）: 変圧器推論のフルスタック最適化に関する調査
Authors: Sehoon Kim, Coleman Hooper, Thanakul Wattanawong, Minwoo Kang, Ruohan Yan, Hasan Genc, Grace Dinh, Qijing Huang, Kurt Keutzer, Michael W. Mahoney, Yakun Sophia Shao, Amir Gholami
Abstract要約: トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
参考スコア（独自算出の注目度）: 58.55475772110702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in state-of-the-art DNN architecture design have been moving toward Transformer models. These models achieve superior accuracy across a wide range of applications. This trend has been consistent over the past several years since Transformer models were originally introduced. However, the amount of compute and bandwidth required for inference of recent Transformer models is growing at a significant rate, and this has made their deployment in latency-sensitive applications challenging. As such, there has been an increased focus on making Transformer models more efficient, with methods that range from changing the architecture design, all the way to developing dedicated domain-specific accelerators. In this work, we survey different approaches for efficient Transformer inference, including: (i) analysis and profiling of the bottlenecks in existing Transformer architectures and their similarities and differences with previous convolutional models; (ii) implications of Transformer architecture on hardware, including the impact of non-linear operations such as Layer Normalization, Softmax, and GELU, as well as linear operations, on hardware design; (iii) approaches for optimizing a fixed Transformer architecture; (iv) challenges in finding the right mapping and scheduling of operations for Transformer models; and (v) approaches for optimizing Transformer models by adapting the architecture using neural architecture search. Finally, we perform a case study by applying the surveyed optimizations on Gemmini, the open-source, full-stack DNN accelerator generator, and we show how each of these approaches can yield improvements, compared to previous benchmark results on Gemmini. Among other things, we find that a full-stack co-design approach with the aforementioned methods can result in up to 88.7x speedup with a minimal performance degradation for Transformer inference.
Abstract（参考訳）: 最新のdnnアーキテクチャ設計の最近の進歩は、トランスフォーマーモデルへと向かっている。これらのモデルは、幅広いアプリケーションで優れた精度を達成します。この傾向は、Transformerモデルが最初に導入されてから数年間にわたって一貫してきた。しかし、最近のトランスフォーマーモデルの推論に必要な計算量と帯域幅は大幅に増加しており、レイテンシに敏感なアプリケーションへのデプロイが困難になっている。そのため、Transformerモデルをより効率的にすることに注力し、アーキテクチャ設計の変更から、専用のドメイン固有のアクセラレータの開発まで幅広い方法が提供されている。本研究では,効率的な変圧器推論のための様々な手法について検討する。一既存のトランスフォーマー建築におけるボトルネックの分析及びプロファイリング及びその類似性及び以前の畳み込みモデルとの差異 (II)トランスフォーマーアーキテクチャがハードウェアに与える影響は,レイヤ正規化,ソフトマックス,GELUなどの非線形演算,および線形演算がハードウェア設計に与える影響を含む。 (iii) 固定トランスアーキテクチャの最適化方法 (iv)変圧器モデルの操作の正しいマッピング及びスケジューリングを見つけるための課題 (v)ニューラルネットワークを用いたアーキテクチャ適応による変圧器モデルの最適化手法最後に、オープンソースのフルスタックdnnアクセラレータージェネレータであるgemminiで調査対象の最適化を適用してケーススタディを行い、これらのアプローチがgemminiの以前のベンチマーク結果に対してどのように改善をもたらすかを示す。中でも、上述した手法によるフルスタックのコデザインアプローチは、最大88.7倍の高速化を実現し、Transformer推論の性能劣化を最小限に抑えることができる。

関連論文リスト

Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文参考訳（メタデータ） (2025-06-26T08:41:45Z)
OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文参考訳（メタデータ） (2025-01-30T22:52:40Z)
Atleus: Accelerating Transformers on the Edge Enabled by 3D Heterogeneous Manycore Architectures [18.355570259898]
Atleusと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。 Atleusには、トランスフォーマーモデルを加速するために特別に最適化された異種コンピューティングリソースが組み込まれている。 Atleusは, 性能およびエネルギー効率の点で, 既存の最先端技術よりも56倍, 64.5倍高い性能を示した。
論文参考訳（メタデータ） (2025-01-16T15:11:33Z)
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-14T10:36:19Z)
TransAxx: Efficient Transformers with Approximate Computing [4.347898144642257]
Vision Transformer (ViT) モデルは非常に競争力があり、畳み込みニューラルネットワーク (CNN) の代替として人気がある。本稿では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案する。提案手法では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,構成可能な空間を効率的に探索する。
論文参考訳（メタデータ） (2024-02-12T10:16:05Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文参考訳（メタデータ） (2022-10-23T02:17:31Z)
Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。 STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文参考訳（メタデータ） (2022-06-13T16:21:08Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文参考訳（メタデータ） (2021-08-29T08:49:31Z)
Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文参考訳（メタデータ） (2021-05-31T16:20:03Z)
Towards Accurate and Compact Architectures via Neural Architecture Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。 NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文参考訳（メタデータ） (2021-02-20T09:38:10Z)
Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文参考訳（メタデータ） (2021-02-12T17:01:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。