論文の概要: AttentionEngine: A Versatile Framework for Efficient Attention Mechanisms on Diverse Hardware Platforms
- arxiv url: http://arxiv.org/abs/2502.15349v1
- Date: Fri, 21 Feb 2025 10:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:20.695477
- Title: AttentionEngine: A Versatile Framework for Efficient Attention Mechanisms on Diverse Hardware Platforms
- Title(参考訳): AttentionEngine: 多様なハードウェアプラットフォーム上での効率的なアテンションメカニズムのためのVersatileフレームワーク
- Authors: Feiyang Chen, Yu Cheng, Lei Wang, Yuqing Xia, Ziming Miao, Lingxiao Ma, Fan Yang, Jilong Xue, Zhi Yang, Mao Yang, Haibo Chen,
- Abstract要約: 我々は、異種ハードウェアバックエンド間のアテンションメカニズムの最適化を効率化するために設計された包括的フレームワークであるAttentionEngineを紹介した。
注意計算をカスタマイズ可能なコンポーネントでモジュール操作に分解することで、AttentionEngineは多様なアルゴリズム要求への柔軟な適応を可能にする。
- 参考スコア(独自算出の注目度): 22.437113145540337
- License:
- Abstract: Transformers and large language models (LLMs) have revolutionized machine learning, with attention mechanisms at the core of their success. As the landscape of attention variants expands, so too do the challenges of optimizing their performance, particularly across different hardware platforms. Current optimization strategies are often narrowly focused, requiring extensive manual intervention to accommodate changes in model configurations or hardware environments. In this paper, we introduce AttentionEngine, a comprehensive framework designed to streamline the optimization of attention mechanisms across heterogeneous hardware backends. By decomposing attention computation into modular operations with customizable components, AttentionEngine enables flexible adaptation to diverse algorithmic requirements. The framework further automates kernel optimization through a combination of programmable templates and a robust cross-platform scheduling strategy. Empirical results reveal performance gains of up to 10x on configurations beyond the reach of existing methods. AttentionEngine offers a scalable, efficient foundation for developing and deploying attention mechanisms with minimal manual tuning. Our code has been open-sourced and is available at https://github.com/microsoft/AttentionEngine.
- Abstract(参考訳): トランスフォーマーと大規模言語モデル(LLM)は、機械学習に革命をもたらし、その成功の核心に注意を向けている。
注目の変動が広がるにつれて、パフォーマンスを最適化する上でも、特に異なるハードウェアプラットフォーム間での課題があります。
現在の最適化戦略は、しばしば狭く焦点を絞っており、モデル構成やハードウェア環境の変更に対応するために広範囲な手作業による介入が必要である。
本稿では、異種ハードウェアバックエンド間でのアテンションメカニズムの最適化を効率化する包括的フレームワークであるAttentionEngineを紹介する。
注意計算をカスタマイズ可能なコンポーネントでモジュール操作に分解することで、AttentionEngineは多様なアルゴリズム要求への柔軟な適応を可能にする。
このフレームワークは、プログラム可能なテンプレートと堅牢なクロスプラットフォームスケジューリング戦略を組み合わせることで、カーネルの最適化をさらに自動化する。
実証的な結果から、既存のメソッドの範囲を超えて、構成が最大10倍の性能向上を示す。
AttentionEngineは、最小限の手動チューニングによる注意機構の開発とデプロイのためのスケーラブルで効率的な基盤を提供する。
私たちのコードはオープンソースで、https://github.com/microsoft/AttentionEngine.comで公開されています。
関連論文リスト
- A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.614888506962988]
思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文 参考訳(メタデータ) (2024-10-10T16:53:10Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Paradiseo: From a Modular Framework for Evolutionary Computation to the
Automated Design of Metaheuristics ---22 Years of Paradiseo--- [33.056531655247625]
ParadisEOは、モジュラーメタヒューリスティックの開発をターゲットとする、包括的なC++フリーソフトウェアである。
この記事では、モジュール化メタヒューリスティックスの開発を目標とする、包括的なC++フリーソフトウェアであるParadisEOフレームワークの特徴を要約する。
論文 参考訳(メタデータ) (2021-05-02T08:45:33Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Learned Hardware/Software Co-Design of Neural Accelerators [20.929918108940093]
ディープラーニングソフトウェアスタックとハードウェアアクセラレータは多様で広大な。
以前の作業では、ハードウェアアーキテクチャとは別途ソフトウェア最適化を検討し、検索スペースを効果的に削減した。
本稿では,ハードウェア/ソフトウェアの共同設計として,共同設計空間における望ましい点を自動的に識別することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:12:52Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。