論文の概要: Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs
- arxiv url: http://arxiv.org/abs/2505.14620v1
- Date: Tue, 20 May 2025 17:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.631625
- Title: Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs
- Title(参考訳): 上位NPUの効率的なコントラスト復号化によるLoRAアダプタの学習知識向上
- Authors: Morgan Lindsay Heisler, Linzi Xing, Ge Shi, Hanieh Sadri, Gursimran Singh, Weiwei Zhang, Tao Ye, Ying Xiong, Yong Zhang, Zhenan Fan,
- Abstract要約: Contrastive LoRA Decoding (CoLD) は、LoRA適応モデルにおけるタスク固有の知識の使用を最大化するために設計された、新しいデコーディングフレームワークである。
CoLDはタスクの精度を最大5.54%向上し、エンドツーエンドのレイテンシを28%削減する。
- 参考スコア(独自算出の注目度): 12.995753143157083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Huawei Cloud users leverage LoRA (Low-Rank Adaptation) as an efficient and scalable method to fine-tune and customize large language models (LLMs) for application-specific needs. However, tasks that require complex reasoning or deep contextual understanding are often hindered by biases or interference from the base model when using typical decoding methods like greedy or beam search. These biases can lead to generic or task-agnostic responses from the base model instead of leveraging the LoRA-specific adaptations. In this paper, we introduce Contrastive LoRA Decoding (CoLD), a novel decoding framework designed to maximize the use of task-specific knowledge in LoRA-adapted models, resulting in better downstream performance. CoLD uses contrastive decoding by scoring candidate tokens based on the divergence between the probability distributions of a LoRA-adapted expert model and the corresponding base model. This approach prioritizes tokens that better align with the LoRA's learned representations, enhancing performance for specialized tasks. While effective, a naive implementation of CoLD is computationally expensive because each decoding step requires evaluating multiple token candidates across both models. To address this, we developed an optimized kernel for Huawei's Ascend NPU. CoLD achieves up to a 5.54% increase in task accuracy while reducing end-to-end latency by 28% compared to greedy decoding. This work provides practical and efficient decoding strategies for fine-tuned LLMs in resource-constrained environments and has broad implications for applied data science in both cloud and on-premises settings.
- Abstract(参考訳): Huawei CloudのユーザはLoRA(Low-Rank Adaptation)を,アプリケーション固有のニーズに対して,大規模言語モデル(LLM)を微調整およびカスタマイズするための,効率的かつスケーラブルな方法として活用する。
しかし、複雑な推論や深い文脈理解を必要とするタスクは、greedyやビームサーチのような典型的な復号法を使用する場合、しばしばベースモデルからのバイアスや干渉によって妨げられる。
これらのバイアスは、LoRA固有の適応を活用する代わりに、ベースモデルからジェネリックまたはタスクに依存しない応答をもたらす可能性がある。
本稿では,LoRA適応モデルにおけるタスク固有知識の利用を最大化するために設計された新しいデコーディングフレームワークであるContrastive LoRA Decoding (CoLD)を紹介する。
CoLDは、LoRA適応エキスパートモデルの確率分布と対応するベースモデルとのばらつきに基づいて、候補トークンをスコアリングすることで、対照的なデコーディングを使用する。
このアプローチでは、LoRAの学習した表現との整合性が向上し、特殊タスクのパフォーマンスが向上するトークンが優先される。
実効性はあるものの、各デコードステップでは、両方のモデルにまたがる複数のトークン候補を評価する必要があるため、COLDの単純な実装は計算コストがかかる。
そこで我々はHuaweiのAscend NPU向けに最適化されたカーネルを開発した。
CoLDは5.54%のタスク精度向上を実現し、Greedyデコーディングに比べてエンドツーエンドのレイテンシを28%削減した。
本研究は,資源制約環境下での微調整LDMの実用的かつ効率的な復号化戦略を提供し,クラウドとオンプレミスの両方において応用データ科学に幅広い意味を持つ。
関連論文リスト
- Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - IterIS: Iterative Inference-Solving Alignment for LoRA Merging [14.263218227928729]
低ランク適応(LoRA)は、特定の下流タスクのために様々な領域にまたがる大きなモデルを微調整するために広く使われている。
LoRAマージは、データのプライバシを維持しながら複数のLoRAを統一アダプタに結合することで、効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-21T19:04:02Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。