論文の概要: FlashEVA: Accelerating LLM inference via Efficient Attention
- arxiv url: http://arxiv.org/abs/2511.00576v1
- Date: Sat, 01 Nov 2025 14:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.848215
- Title: FlashEVA: Accelerating LLM inference via Efficient Attention
- Title(参考訳): FlashEVA: 効率的な注意によるLCM推論の高速化
- Authors: Juan Gabriel Kostelec, Qinghai Guo,
- Abstract要約: FlashEVAはEVA(制御変数による効率的な注意)の効率的な実装である
提案手法では, 1.5Bのトークンしか持たないトランスフォーマーモデルの微調整が可能であり, ダウンストリームタスク間で有効性を保っている。
- 参考スコア(独自算出の注目度): 12.199586589853231
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer models have revolutionized natural language processing, achieving state-of-the-art performance and demonstrating remarkable scalability. However, their memory demands, particularly due to maintaining full context in memory, pose significant challenges for inference. In this paper, we present FlashEVA, an efficient implementation of EVA (Efficient Attention via Control Variates), and demonstrate how to finetune transformers to adapt to FlashEVA attention. Our method enables fine-tuning of Transformer models with as few as 1.5B tokens while preserving effectiveness across various downstream tasks. Notably, FlashEVA achieves up to 6.7x higher throughput and 5x lower peak GPU memory usage during inference compared to standard Transformer implementations. Despite these improvements, we observe limitations in retrieval-focused tasks. Our implementation offers control over the trade-off between throughput and accuracy through adjustable hyperparameters, providing flexibility for diverse use cases. This work represents a significant step towards more efficient and adaptable Transformer-based models for inference.
- Abstract(参考訳): トランスフォーマーモデルは自然言語処理に革命をもたらし、最先端のパフォーマンスを達成し、素晴らしいスケーラビリティを誇示している。
しかしながら、メモリの完全なコンテキストを維持するため、特にメモリ要求は、推論に重大な課題を生じさせる。
本稿では,EVAの効率的な実装であるFlashEVAについて述べる。
提案手法では, 1.5Bのトークンしか持たないトランスフォーマーモデルの微調整が可能であり, ダウンストリームタスク間で有効性を保っている。
特に、FlashEVAは、標準的なTransformer実装と比較して最大6.7倍のスループットと5倍のピークGPUメモリ使用率を達成する。
これらの改善にもかかわらず、検索に焦点を絞ったタスクの制限を観察する。
我々の実装は、調整可能なハイパーパラメータによるスループットと精度のトレードオフを制御し、多様なユースケースに柔軟性を提供します。
この作業は、推論のためのより効率的で適応可能なTransformerベースのモデルに向けた重要なステップである。
関連論文リスト
- ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - Memory Efficient Transformer Adapter for Dense Predictions [42.413108132475855]
本稿では,メモリ効率を向上し,メモリ消費を低減できるメモリ効率の良いViTアダプタMETAを提案する。
提案するブロック内では、モデルの頻繁な再形成操作を減らすために、断面形状の自己注意が使用される。
METAは予測される品質を大幅に向上し、新しい最先端の精度効率トレードオフを実現している。
論文 参考訳(メタデータ) (2025-02-04T03:19:33Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Optimizing ViViT Training: Time and Memory Reduction for Action
Recognition [30.431334125903145]
ビデオトランスによるトレーニング時間とメモリ消費がもたらす課題に対処する。
本手法は,この障壁を低くするように設計されており,トレーニング中に空間変圧器を凍結するという考え方に基づいている。
論文 参考訳(メタデータ) (2023-06-07T23:06:53Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。