論文の概要: AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization
- arxiv url: http://arxiv.org/abs/2603.11873v1
- Date: Thu, 12 Mar 2026 12:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.078472
- Title: AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization
- Title(参考訳): AdaFuse: Token-Level Pre-GatingとFused Kernel Optimizationによる動的アダプタ推論の高速化
- Authors: Qiyang Li, Rui Kong, Yuchen Li, Hengyi Cai, Shuaiqiang Wang, Linghe Kong, Guihai Chen, Dawei Yin,
- Abstract要約: 動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
- 参考スコア(独自算出の注目度): 84.25316984309725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of dynamic, sparse structures like Mixture-of-Experts (MoE) with parameter-efficient adapters (e.g., LoRA) is a powerful technique for enhancing Large Language Models (LLMs). However, this architectural enhancement comes at a steep cost: despite minimal increases in computational load, the inference latency often skyrockets, leading to decoding speeds slowing by over 2.5 times. Through a fine-grained performance analysis, we pinpoint the primary bottleneck not in the computation itself, but in the severe overhead from fragmented, sequential CUDA kernel launches required for conventional dynamic routing. To address this challenge, we introduce AdaFuse, a framework built on a tight co-design between the algorithm and the underlying hardware system to enable efficient dynamic adapter execution. Departing from conventional layer-wise or block-wise routing, AdaFuse employs a token-level pre-gating strategy, which makes a single, global routing decision for all adapter layers before a token is processed. This "decide-once, apply-everywhere" approach effectively staticizes the execution path for each token, creating an opportunity for holistic optimization. We capitalize on this by developing a custom CUDA kernel that performs a fused switching operation, merging the parameters of all selected LoRA adapters into the backbone model in a single, efficient pass. Experimental results on popular open-source LLMs show that AdaFuse achieves accuracy on par with state-of-the-art dynamic adapters while drastically cutting decoding latency by a factor of over 2.4x, thereby bridging the gap between model capability and inference efficiency.
- Abstract(参考訳): パラメータ効率の高いアダプタ(例えばLoRA)とMixture-of-Experts(MoE)のようなダイナミックでスパースな構造を統合することは、Large Language Models(LLM)を強化する強力な技術である。
しかし、このアーキテクチャの強化は、計算負荷が最小限に抑えられたにもかかわらず、推論レイテンシが急上昇し、デコード速度が2.5倍以上遅くなります。
微粒な性能解析により、計算自体ではなく、従来の動的ルーティングに必要な分断されたシーケンシャルなCUDAカーネルの起動から、重大なオーバーヘッドを指摘できる。
この課題に対処するために,アルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークであるAdaFuseを導入し,動的アダプタの効率的な実行を実現する。
従来のレイヤ単位あるいはブロック単位のルーティングとは別に、AdaFuseではトークンレベルのプリゲート戦略を採用しており、トークンが処理される前に、すべてのアダプタ層に対して単一のグローバルなルーティング決定を行う。
この"decide-once, apply-everywhere"アプローチは、トークンごとの実行パスを効果的に静的化し、全体的な最適化の機会を生み出します。
そこで我々は,全選択したLoRAアダプタのパラメータを,単一の効率的なパスでバックボーンモデルにマージする,融合切替操作を行うカスタムCUDAカーネルを開発することにより,これを実現した。
オープンソース LLM における実験結果から,AdaFuse は現状の動的アダプタと同等の精度でデコード遅延を2.4倍以上削減し,モデル能力と推論効率のギャップを埋めることができた。
関連論文リスト
- AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning [23.59600455731982]
混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。
実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T07:18:08Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference [8.057006406834462]
大きな言語モデル(LLM)は、レイテンシに敏感なアプリケーションにおける効率的な推論の需要を増大させた。
これらの課題に対するヘテロジニアスメモリ中心のアクセラレータであるHALOを提案する。
HALOはAtAccの最大18倍の幾何平均速度を達成し,注目度を最適化したマッピング,CENTの2.5倍を実現している。
論文 参考訳(メタデータ) (2025-10-03T02:20:17Z) - Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [16.84400858871298]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design [23.874726096958135]
動的アダプタのきめ細かいコストを分析し、断片化されたカーネル呼び出しが根本原因であることを確かめる。
レイヤワイドまたはブロックワイドな動的ルーティングを採用する既存の動的構造とは異なり、LoRA-Switchはトークンワイドなルーティング機構を導入している。
効率を上げるために、このスイッチングは最適化されたカーネルで実装され、同時にすべてのLoRAアダプタの操作を融合させる。
論文 参考訳(メタデータ) (2024-05-28T01:53:26Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。