論文の概要: CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter
- arxiv url: http://arxiv.org/abs/2502.16880v1
- Date: Mon, 24 Feb 2025 06:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:27.111265
- Title: CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter
- Title(参考訳): CoRAL: より軽量な投機的投機による多段階学習における一貫性のある表現の学習
- Authors: Yepeng Weng, Dianwen Mei, Huishi Qiu, Xujie Chen, Li Liu, Jiang Tian, Zhongchao Shi,
- Abstract要約: 投機的復号化は,軽量な投機的ドラフトモデルを活用することで,Large Language Model (LLM)推論を高速化する強力な手法である。
近年の手法では、多段階のトレーニング戦略を採用することでこの問題の解決が試みられているが、異なるトレーニングステップの複雑な入力によって、ドラフトモデルを収束させるのが難しくなっている。
投機的起草における精度と効率を両立させる新しいフレームワークであるCORALを提案する。
- 参考スコア(独自算出の注目度): 9.631036588583248
- License:
- Abstract: Speculative decoding is a powerful technique that accelerates Large Language Model (LLM) inference by leveraging a lightweight speculative draft model. However, existing designs suffers in performance due to misalignment between training and inference. Recent methods have tried to solve this issue by adopting a multi-step training strategy, but the complex inputs of different training steps make it harder for the draft model to converge. To address this, we propose CORAL, a novel framework that improves both accuracy and efficiency in speculative drafting. CORAL introduces Cross-Step Representation Alignment, a method that enhances consistency across multiple training steps, significantly improving speculative drafting performance. Additionally, we identify the LM head as a major bottleneck in the inference speed of the draft model. We introduce a weight-grouping mechanism that selectively activates a subset of LM head parameters during inference, substantially reducing the latency of the draft model. We evaluate CORAL on three LLM families and three benchmark datasets, achieving speedup ratios of 2.50x-4.07x, outperforming state-of-the-art methods such as EAGLE-2 and HASS. Our results demonstrate that CORAL effectively mitigates training-inference misalignment and delivers significant speedup for modern LLMs with large vocabularies.
- Abstract(参考訳): 投機的復号化は,軽量な投機的ドラフトモデルを活用することで,Large Language Model (LLM)推論を高速化する強力な手法である。
しかし、既存の設計は、トレーニングと推論のミスアライメントにより、パフォーマンスに苦しむ。
近年の手法では、多段階のトレーニング戦略を採用することでこの問題の解決が試みられているが、異なるトレーニングステップの複雑な入力によって、ドラフトモデルを収束させるのが難しくなっている。
そこで本研究では,投機的起草における精度と効率性を両立させる新しいフレームワークであるCoRALを提案する。
CoRALはクロスステップ表現アライメント(Cross-Step Representation Alignment)を導入した。これは、複数のトレーニングステップ間の一貫性を高め、投機的ドラフトのパフォーマンスを大幅に改善する手法だ。
さらに, LMヘッドを, ドラフトモデルの推論速度の大きなボトルネックとみなす。
提案手法では,推定中にLMヘッドパラメータのサブセットを選択的に活性化する重み付け機構を導入し,ドラフトモデルの遅延を大幅に低減する。
我々は、3つのLLMファミリーと3つのベンチマークデータセット上でCORALを評価し、2.50x-4.07xのスピードアップ比を達成し、EAGLE-2やHASSのような最先端の手法よりも優れています。
以上の結果から,CORALはトレーニング推論ミスアライメントを効果的に軽減し,語彙の大きい現代LLMにおいて大幅な高速化を実現していることが示された。
関連論文リスト
- OPTISHEAR: Towards Efficient and Adaptive Pruning of Large Language Models via Evolutionary Optimization [18.57876883968734]
適応型LLMプルーニングのための効率的な進化的最適化フレームワークである textbftextscOptiShear を紹介する。
我々のフレームワークは,メタプルーニングメトリック上に構築された効率的な検索空間と,迅速な評価のためのモデルワイド再構成誤差の2つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2025-02-15T09:17:38Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [35.53877806259048]
本稿では,大規模言語モデル(LLM)におけるモデルマージのための,最初の包括的なベンチマークを確立する。
分析の結果, これまで見過ごされた3H次元間のコラボレーティブ/コンフリクト関係, (ii) 整合性トレードオフのバランスをとる上でのデータ混在アプローチに対するモデルマージの一貫性上の優位性, (iii) 冗長なコンポーネントプルーニングとアウトリー緩和によるパラメータレベルのコンフリクト解決の重要な役割, の3点が明らかになった。
重み付きパラメータの重み付けと、重み付きパラメータに適応したスペーサ適応ランク選択戦略を組み込んだ、重み付け強化タスク特異ベクトルマージ手法であるR-TSVMを提案する。
論文 参考訳(メタデータ) (2025-02-08T11:56:58Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。