論文の概要: Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs
- arxiv url: http://arxiv.org/abs/2505.14620v1
- Date: Tue, 20 May 2025 17:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.631625
- Title: Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs
- Title(参考訳): 上位NPUの効率的なコントラスト復号化によるLoRAアダプタの学習知識向上
- Authors: Morgan Lindsay Heisler, Linzi Xing, Ge Shi, Hanieh Sadri, Gursimran Singh, Weiwei Zhang, Tao Ye, Ying Xiong, Yong Zhang, Zhenan Fan,
- Abstract要約: Contrastive LoRA Decoding (CoLD) は、LoRA適応モデルにおけるタスク固有の知識の使用を最大化するために設計された、新しいデコーディングフレームワークである。
CoLDはタスクの精度を最大5.54%向上し、エンドツーエンドのレイテンシを28%削減する。
- 参考スコア(独自算出の注目度): 12.995753143157083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Huawei Cloud users leverage LoRA (Low-Rank Adaptation) as an efficient and scalable method to fine-tune and customize large language models (LLMs) for application-specific needs. However, tasks that require complex reasoning or deep contextual understanding are often hindered by biases or interference from the base model when using typical decoding methods like greedy or beam search. These biases can lead to generic or task-agnostic responses from the base model instead of leveraging the LoRA-specific adaptations. In this paper, we introduce Contrastive LoRA Decoding (CoLD), a novel decoding framework designed to maximize the use of task-specific knowledge in LoRA-adapted models, resulting in better downstream performance. CoLD uses contrastive decoding by scoring candidate tokens based on the divergence between the probability distributions of a LoRA-adapted expert model and the corresponding base model. This approach prioritizes tokens that better align with the LoRA's learned representations, enhancing performance for specialized tasks. While effective, a naive implementation of CoLD is computationally expensive because each decoding step requires evaluating multiple token candidates across both models. To address this, we developed an optimized kernel for Huawei's Ascend NPU. CoLD achieves up to a 5.54% increase in task accuracy while reducing end-to-end latency by 28% compared to greedy decoding. This work provides practical and efficient decoding strategies for fine-tuned LLMs in resource-constrained environments and has broad implications for applied data science in both cloud and on-premises settings.
- Abstract(参考訳): Huawei CloudのユーザはLoRA(Low-Rank Adaptation)を,アプリケーション固有のニーズに対して,大規模言語モデル(LLM)を微調整およびカスタマイズするための,効率的かつスケーラブルな方法として活用する。
しかし、複雑な推論や深い文脈理解を必要とするタスクは、greedyやビームサーチのような典型的な復号法を使用する場合、しばしばベースモデルからのバイアスや干渉によって妨げられる。
これらのバイアスは、LoRA固有の適応を活用する代わりに、ベースモデルからジェネリックまたはタスクに依存しない応答をもたらす可能性がある。
本稿では,LoRA適応モデルにおけるタスク固有知識の利用を最大化するために設計された新しいデコーディングフレームワークであるContrastive LoRA Decoding (CoLD)を紹介する。
CoLDは、LoRA適応エキスパートモデルの確率分布と対応するベースモデルとのばらつきに基づいて、候補トークンをスコアリングすることで、対照的なデコーディングを使用する。
このアプローチでは、LoRAの学習した表現との整合性が向上し、特殊タスクのパフォーマンスが向上するトークンが優先される。
実効性はあるものの、各デコードステップでは、両方のモデルにまたがる複数のトークン候補を評価する必要があるため、COLDの単純な実装は計算コストがかかる。
そこで我々はHuaweiのAscend NPU向けに最適化されたカーネルを開発した。
CoLDは5.54%のタスク精度向上を実現し、Greedyデコーディングに比べてエンドツーエンドのレイテンシを28%削減した。
本研究は,資源制約環境下での微調整LDMの実用的かつ効率的な復号化戦略を提供し,クラウドとオンプレミスの両方において応用データ科学に幅広い意味を持つ。
関連論文リスト
- TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - CoLA: Collaborative Low-Rank Adaptation [3.421904493396495]
特定のタスクに対する事前学習モデルの微調整は、高い性能を達成するが、計算的に高価で非効率である。
LoRAは特に有効であることが証明されているが、マルチタスクシナリオへの応用はタスク間の干渉によって制限されている。
我々は、より柔軟なLoRAアーキテクチャと3つの協調戦略であるCoLAを提案し、$A$と$B$の間の量的関係をよりよく活用することでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-21T12:46:42Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。
さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。
SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文 参考訳(メタデータ) (2025-02-24T22:35:53Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - IterIS: Iterative Inference-Solving Alignment for LoRA Merging [14.263218227928729]
低ランク適応(LoRA)は、特定の下流タスクのために様々な領域にまたがる大きなモデルを微調整するために広く使われている。
LoRAマージは、データのプライバシを維持しながら複数のLoRAを統一アダプタに結合することで、効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-21T19:04:02Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。