Fugu-MT 論文翻訳(概要): FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer

論文の概要: FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer

arxiv url: http://arxiv.org/abs/2505.13813v1
Date: Tue, 20 May 2025 01:48:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.591904
Title: FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer
Title（参考訳）: FlashKAT: Kolmogorov-Arnold変換器のパフォーマンス向上への理解と対処
Authors: Matthew Raffel, Lizhong Chen,
Abstract要約: Kolmogorov-Arnold Network (KAN) は多層パーセプトロン (MLP) の代替として人気を集めている。 Group-Rational Kan (GR-KAN) は、計算コストの増大とトレーニングの不安定性のため、桁違いに遅くなる可能性がある。我々は,再構造化されたカーネル上に構築されたFlashKATを提案する。
参考スコア（独自算出の注目度）: 6.420027327350639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Kolmogorov-Arnold Network (KAN) has been gaining popularity as an alternative to the multi-layer perceptron (MLP) with its increased expressiveness and interpretability. However, the KAN can be orders of magnitude slower due to its increased computational cost and training instability, limiting its applicability to larger-scale tasks. Recently, the Kolmogorov-Arnold Transformer (KAT) has been proposed, which can achieve FLOPs similar to the traditional Transformer with MLPs by leveraging Group-Rational KAN (GR-KAN). Unfortunately, despite the comparable FLOPs, our characterizations reveal that the KAT is still 123x slower in training speeds, indicating that there are other performance bottlenecks beyond FLOPs. In this paper, we conduct a series of experiments to understand the root cause of the slowdown in KAT. We uncover that the slowdown can be isolated to memory stalls and, more specifically, in the backward pass of GR-KAN caused by inefficient gradient accumulation. To address this memory bottleneck, we propose FlashKAT, which builds on our restructured kernel that minimizes gradient accumulation with atomic adds and accesses to slow memory. Evaluations demonstrate that FlashKAT can achieve a training speedup of 86.5x compared with the state-of-the-art KAT, while reducing rounding errors in the coefficient gradients. Our code is available at https://github.com/OSU-STARLAB/FlashKAT.
Abstract（参考訳）: Kolmogorov-Arnold Network (KAN) は、多層パーセプトロン(MLP)の代替として、表現性と解釈性を高めて人気を集めている。しかし、KANは計算コストの増大とトレーニングの不安定さのため、桁違いに遅くなり、大規模タスクの適用性が制限される。近年,KAT (Kolmogorov-Arnold Transformer) が提案されており,GR-KAN (Group-Rational Kan) を利用して従来の変圧器と同様のFLOPを実現することができる。残念なことに、FLOPに比較してはいるものの、我々の評価では、KATはトレーニング速度がまだ123倍遅いことが示されており、FLOP以外にもパフォーマンス上のボトルネックがあることを示している。本稿では,KATの減速の根本原因を理解するための一連の実験を行う。特に,非効率な勾配の蓄積によるGR-KANの後方通過において,速度低下をメモリストールに分離できることが判明した。このメモリボトルネックに対処するため,再構築されたカーネル上に構築されたFlashKATを提案する。評価の結果、FlashKATは最先端のKATと比較して86.5倍の速度アップを達成でき、係数勾配の丸め誤差を低減できることが示された。私たちのコードはhttps://github.com/OSU-STARLAB/FlashKAT.comで利用可能です。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
FastFLUX: Pruning FLUX with Block-wise Replacement and Sandwich Training [26.162971280828046]
本稿では,FLUXの推論効率を向上させるアーキテクチャレベルのプルーニングフレームワークであるFastFLUXを提案する。中心となるのはBlock-wise Replacement with Linear Layers (BRLL) 法であり、ResBlocksの構造的に複雑な残枝を軽量な線形層に置き換えている。実験の結果,FastFLUXは定性評価と定量的評価の両方で高画質を維持しつつ,20%の階層プルーニングでも推論速度を大幅に向上していることがわかった。
論文参考訳（メタデータ） (2025-06-10T20:48:30Z)
Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文参考訳（メタデータ） (2025-06-07T03:51:13Z)
Adaptive Computation Pruning for the Forgetting Transformer [3.537543880520517]
我々は、FoX(Fortting Transformer)のための適応計算処理(ACP)を提案する。 ACPは、インプット・アウトプットの依存関係を含む計算をリクットゲートによって強く減衰させる。 ACPは、異なるモデルサイズとコンテキストの長さで、ソフトマックスの注意におけるFLOPの数を約70%削減する。
論文参考訳（メタデータ） (2025-04-09T14:57:55Z)
ViKANformer: Embedding Kolmogorov Arnold Networks in Vision Transformers for Pattern-Based Learning [0.0]
視覚変換器(ViT)はパッチ埋め込みに自己注意を適用して画像分類を行う。本稿では,サブレイヤをKAN拡張に置き換えるViKANformerを提案する。
論文参考訳（メタデータ） (2025-03-03T03:10:26Z)
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration [45.62669899834342]
拡散変換器(DiT)は高品質なビデオを生成するのに有効であることが証明されているが、高い計算コストによって妨げられている。本稿では,ビデオDiTの高速化を目的としたトレーニングフリーでモデルに依存しない非対称リダクション・アンド・リカバリ法(AsymRnR)を提案する。
論文参考訳（メタデータ） (2024-12-16T12:28:22Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文参考訳（メタデータ） (2024-08-16T11:27:52Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文参考訳（メタデータ） (2024-07-11T08:42:58Z)
When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。 FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文参考訳（メタデータ） (2024-05-08T02:24:09Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。