論文の概要: zFLoRA: Zero-Latency Fused Low-Rank Adapters
- arxiv url: http://arxiv.org/abs/2510.25784v1
- Date: Tue, 28 Oct 2025 13:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.481122
- Title: zFLoRA: Zero-Latency Fused Low-Rank Adapters
- Title(参考訳): zFLoRA: ゼロレイテンシの低ランクアダプタ
- Authors: Dhananjaya Gowda, Seoha Song, Harshith Goka, Junhyun Lee,
- Abstract要約: 本稿では,ゼロあるいは無視可能な遅延オーバーヘッドをベースモデル上に導入するゼロレイテンシフューズドローランクアダプタ (zFLoRA) を提案する。
1B, 3B, 7B の LLM 実験の結果,zFLoRA は教師付き微調整ベンチマークと良好に比較できることがわかった。
- 参考スコア(独自算出の注目度): 7.7718135942297275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed with task-specific adapters catering to multiple downstream applications. In such a scenario, the additional compute associated with these apparently insignificant number of adapter parameters (typically less than 1% of the base model) turns out to be disproportionately significant during inference time (upto 2.5x times that of the base model). In this paper, we propose a new zero-latency fused low-rank adapter (zFLoRA) that introduces zero or negligible latency overhead on top of the base model. Experimental results on LLMs of size 1B, 3B and 7B show that zFLoRA compares favorably against the popular supervised fine-tuning benchmarks including low-rank adapters (LoRA) as well as full fine-tuning (FFT). Experiments are conducted on 18 different tasks across three different categories namely commonsense reasoning, math reasoning and summary-dialogue. Latency measurements made on NPU (Samsung Galaxy S25+) as well as GPU (NVIDIA H100) platforms show that the proposed zFLoRA adapters introduce zero to negligible latency overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のダウンストリームアプリケーションに対応するタスク固有のアダプタでデプロイされることが多い。
このようなシナリオでは、これらの明らかに重要でない数のアダプタパラメータ(通常、ベースモデルの1%未満)に関連する追加計算は、推論時間(ベースモデルの2.5倍)の間に不均等に有意であることが判明する。
本稿では,ゼロあるいは無視可能な遅延オーバーヘッドをベースモデル上に導入するゼロレイテンシフューズドローランクアダプタ (zFLoRA) を提案する。
1B, 3B, 7B の LLM 実験の結果,zFLoRA はローランクアダプタ (LoRA) やフルファインチューニング (FFT) を含む一般的な教師付き微調整ベンチマークと比較した。
実験は、常識推論(Commonsense reasoning)、数学推論(Mathematic reasoning)、要約対話(Summit-dialogue)という3つのカテゴリで18の異なるタスクで実施される。
NPU(Samsung Galaxy S25+)とGPU(NVIDIA H100)プラットフォーム上で実施されたレイテンシ測定は、提案されたzFLoRAアダプタがゼロから無視可能な遅延オーバーヘッドを導入したことを示している。
関連論文リスト
- PHLoRA: data-free Post-hoc Low-Rank Adapter extraction from full-rank checkpoint [3.5840378192062956]
我々は、フルランク微調整モデルから低ランク適応アダプタを抽出する簡易かつ強力なPHLoRAを提案する。
アダプタを明示的に訓練する以前の作業とは異なり、我々のアプローチはアダプタ生成から微調整を分離する。
Amazon Novaモデルファミリを用いたテキスト、画像、ビデオのベンチマーク実験では、抽出されたアダプタは、フルウェイトデルタから高エネルギーを保ち、安全に刈り取ることができ、再マージ時に下流タスクのパフォーマンスが無視できる劣化をもたらすことが示されている。
論文 参考訳(メタデータ) (2025-09-13T20:13:58Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文 参考訳(メタデータ) (2024-07-04T18:21:28Z) - Sparse High Rank Adapters [16.160749645651567]
ローランク適応(LoRA)は、最近の生成AI研究で大きな注目を集めている。
提案するSparse High Rank Adapters (SHiRA) は,推論オーバーヘッドを伴わず,高速な切り替えが可能で,概念の損失を大幅に低減する新しいパラダイムである。
論文 参考訳(メタデータ) (2024-06-19T03:13:11Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - VeRA: Vector-based Random Matrix Adaptation [29.99581464596137]
本稿では,Vectorをベースとしたランダム行列適応(Random Matrix Adaptation, VeRA)を提案する。
GLUE と E2E ベンチマーク、画像分類タスクでの有効性を示し、7B と 13B の言語モデルの命令チューニングへの応用を示す。
論文 参考訳(メタデータ) (2023-10-17T17:59:46Z) - PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees [95.87604231887353]
既存のpFL手法は高い通信コストと計算コストをもたらすか、テスト通信に弱い。
PerAdaではパラメータ蒸留とpFL pFLが特に試験時間分布において優れた性能を示す。
私たちのコードはhttps://github.com/NV/PerAda.comで公開されています。
論文 参考訳(メタデータ) (2023-02-13T19:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。