論文の概要: Flash Invariant Point Attention
- arxiv url: http://arxiv.org/abs/2505.11580v1
- Date: Fri, 16 May 2025 16:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.721644
- Title: Flash Invariant Point Attention
- Title(参考訳): Flash 不変点注意
- Authors: Andrew Liu, Axel Elaldi, Nicholas T Franklin, Nathan Russell, Gurinder S Atwal, Yih-En A Ban, Olivia Viessmann,
- Abstract要約: Invariant Point Attention (IPA) は構造生物学における幾何認識モデリングの鍵となるアルゴリズムである。
我々は、ハードウェア効率のよいFlashAttentionを活用して、GPUメモリの線形スケーリングとシーケンス長のウォールクロック時間を実現する、IPAの分解改質であるFlashIPAを紹介する。
FlashIPAは、計算コストを大幅に削減しながら、標準のIPA性能に適合または超過する。
- 参考スコア(独自算出の注目度): 2.5457753523339672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Invariant Point Attention (IPA) is a key algorithm for geometry-aware modeling in structural biology, central to many protein and RNA models. However, its quadratic complexity limits the input sequence length. We introduce FlashIPA, a factorized reformulation of IPA that leverages hardware-efficient FlashAttention to achieve linear scaling in GPU memory and wall-clock time with sequence length. FlashIPA matches or exceeds standard IPA performance while substantially reducing computational costs. FlashIPA extends training to previously unattainable lengths, and we demonstrate this by re-training generative models without length restrictions and generating structures of thousands of residues. FlashIPA is available at https://github.com/flagshippioneering/flash_ipa.
- Abstract(参考訳): Invariant Point Attention (IPA) は多くのタンパク質やRNAモデルの中心となる構造生物学における幾何認識モデリングの鍵となるアルゴリズムである。
しかし、その二次的な複雑さは入力シーケンスの長さを制限する。
我々は、ハードウェア効率のよいFlashAttentionを活用して、GPUメモリの線形スケーリングとシーケンス長のウォールクロック時間を実現する、IPAの分解改質であるFlashIPAを紹介する。
FlashIPAは、計算コストを大幅に削減しながら、標準のIPA性能に適合または超過する。
FlashIPAは、従来は到達不可能な長さまでトレーニングを拡張し、長さ制限のない生成モデルを再訓練し、数千の残基の構造を生成することでこれを実証する。
FlashIPAはhttps://github.com/flagshippioneering/flash_ipa.comで入手できる。
関連論文リスト
- Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs
without Fine-tuning [96.13057811149827]
Inference-time Policy Adapters (IPA) を提案する。
IPAは、任意のユーザ目標を最適化するために訓練された軽量ポリシーアダプタを通じて、デコード期間中に大規模なベースモデルをガイドする。
既製の言語モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-24T11:52:55Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。