論文の概要: An Efficient Data Reuse with Tile-Based Adaptive Stationary for Transformer Accelerators
- arxiv url: http://arxiv.org/abs/2503.19640v1
- Date: Tue, 25 Mar 2025 13:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:53:39.379206
- Title: An Efficient Data Reuse with Tile-Based Adaptive Stationary for Transformer Accelerators
- Title(参考訳): Tile-based Adaptive Stationary を用いた変圧器加速器の効率的なデータ再利用
- Authors: Tseng-Jen Li, Tian-Sheuan Chang,
- Abstract要約: トランスフォーマーベースのモデルは、コンピュータビジョンや自然言語処理など、多くの分野において事実上のバックボーンとなっている。
重みとアクティベーションのための外部メモリアクセス(EMA)は、内部計算に比べてエネルギー消費が著しく高いため、重要なボトルネックとなる。
タイル内の入力または重みを入力シーケンス長に基づいて選択するタイルベースの適応定常スキームを提案する。
- 参考スコア(独自算出の注目度): 0.0502254944841629
- License:
- Abstract: Transformer-based models have become the \textit{de facto} backbone across many fields, such as computer vision and natural language processing. However, as these models scale in size, external memory access (EMA) for weight and activations becomes a critical bottleneck due to its significantly higher energy consumption compared to internal computations. While most prior work has focused on optimizing the self-attention mechanism, little attention has been given to optimizing data transfer during linear projections, where EMA costs are equally important. In this paper, we propose the Tile-based Adaptive Stationary (TAS) scheme that selects the input or weight stationary in a tile granularity, based on the input sequence length. Our experimental results demonstrate that TAS can significantly reduce EMA by more than 97\% compared to traditional stationary schemes, while being compatible with various attention optimization techniques and hardware accelerators.
- Abstract(参考訳): トランスフォーマーベースのモデルは、コンピュータビジョンや自然言語処理など、多くの分野において、textit{de facto}バックボーンとなっている。
しかしながら、これらのモデルのサイズがスケールするにつれて、重量と活性化のための外部メモリアクセス(EMA)は、内部計算に比べてエネルギー消費が著しく高いため、重要なボトルネックとなる。
多くの先行研究は自己注意機構の最適化に重点を置いているが、EMAコストが等しく重要である線形投影時のデータ転送の最適化にはほとんど注意が払われていない。
本稿では,タイルの粒度の入力や重みを入力シーケンス長に基づいて選択するTile-based Adaptive Stationary (TAS)方式を提案する。
実験の結果,TASは従来の定常方式に比べてEMAを97%以上削減できるが,各種の注意最適化手法やハードウェアアクセラレーションと互換性があることがわかった。
関連論文リスト
- MATEY: multiscale adaptive foundation models for spatiotemporal physical systems [2.7767126393602726]
局所的な特徴に基づくパッチサイズを動的に調整する2つの適応トークン化方式を提案する。
提案するマルチスケール適応モデルであるMATEYの性能を実験で評価する。
また、PDEデータに基づいて事前学習した物理を特徴とする微調整タスクについても紹介する。
論文 参考訳(メタデータ) (2024-12-29T22:13:16Z) - Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文 参考訳(メタデータ) (2024-12-16T07:33:23Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Dimensionality Reduction in Sentence Transformer Vector Databases with Fast Fourier Transform [0.0]
ベクトルデータベースの次元性低減は、AIデータ管理の合理化に重要である。
本稿では,ベクトルデータベースの次元を減らし,計算効率を重視し,次元の呪いを克服する利点について考察する。
本稿では,Fast Fourier Transform (FFT) の次元化への応用について紹介する。
論文 参考訳(メタデータ) (2024-04-09T13:02:22Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。