論文の概要: DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment
- arxiv url: http://arxiv.org/abs/2508.06041v1
- Date: Fri, 08 Aug 2025 05:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.095575
- Title: DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment
- Title(参考訳): DP-LLM:動的層幅精度アサインメントを用いた実行時モデル適応
- Authors: Sangwoo Kwon, Seong Hoon Seo, Jae W. Lee, Yeonhong Park,
- Abstract要約: DP-LLMは入力値に基づいて各層に動的に精度を割り当てる機構である。
DP-LLMは,従来の手法よりも優れた性能・遅延トレードオフを実現することを示す。
- 参考スコア(独自算出の注目度): 4.048600072986694
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: How can we effectively handle queries for on-device large language models (LLMs) with varying runtime constraints, such as latency and accuracy? Multi-scale quantization addresses this challenge by enabling memory-efficient runtime model adaptation of LLMs through the overlaying of multiple model variants quantized to different bitwidths. Meanwhile, an important question still remains open-ended: how can models be properly configured to match a target precision or latency? While mixed-precision offers a promising solution, we take this further by leveraging the key observation that the sensitivity of each layer dynamically changes across decoding iterations. Building on this insight, we introduce DP-LLM, a novel mechanism that dynamically assigns precision to each layer based on input values. DP-LLM augments each linear layer in an LLM with a precision selector that determines the bitwidth at runtime using a lightweight error estimator and threshold values learned through fine-tuning. Experimental results across multiple models and benchmarks demonstrate that DP-LLM achieves a superior performance-latency trade-off, outperforming prior approaches.
- Abstract(参考訳): レイテンシや精度など,さまざまなランタイム制約で,デバイス上の大規模言語モデル(LLM)のクエリを効果的に処理するには,どうすればよいのでしょう?
マルチスケール量子化は、異なるビット幅に量子化された複数のモデル変種をオーバーレイすることで、メモリ効率の良いLCMのランタイムモデル適応を可能にすることで、この問題に対処する。
モデルがターゲットの精度やレイテンシにマッチするように適切に設定できるのか?
混合精度(mixed-precision)は有望なソリューションを提供する一方で、各レイヤの感度が復号イテレーション間で動的に変化するというキーとなる観察を活用することでこれをさらに進める。
DP-LLMは,入力値に基づいて各層に動的に精度を割り当てる機構である。
DP-LLMは、軽量誤差推定器と微調整により学習した閾値を用いて実行時のビット幅を決定する精度セレクタを用いて、LCM内の各線形層を拡大する。
複数のモデルとベンチマークによる実験結果から、DP-LLMは優れた性能-遅延トレードオフを実現し、従来のアプローチよりも優れた性能を示した。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - KNN-SSD: Enabling Dynamic Self-Speculative Decoding via Nearest Neighbor Layer Set Optimization [20.230236656479207]
投機的復号化(SD)は、大規模言語モデル(LLM)の推論を加速するために広く使われているパラダイムとして登場した。
KNN-SSDは、K-Nearest Neighbor(KNN)探索を利用して、異なるスキップ層と様々なドメイン入力をマッチングするアルゴリズムである。
論文 参考訳(メタデータ) (2025-05-22T03:04:47Z) - LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。