論文の概要: OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs
- arxiv url: http://arxiv.org/abs/2511.13147v1
- Date: Mon, 17 Nov 2025 08:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.082418
- Title: OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs
- Title(参考訳): OTARo: デバイス上でのロバストなLCMへの全精度調整
- Authors: Shaoyuan Chen, Zhixuan Chen, Dawei Yang, Zhihang Yuan, Qiang Wu,
- Abstract要約: OTARoはデバイス上の大規模言語モデルで量子化精度を柔軟に切り替えることができる新しい手法である。
すべての精度で一貫して強固で堅牢なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 21.55040910903597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) fine-tuning techniques not only improve the adaptability to diverse downstream tasks, but also mitigate adverse effects of model quantization. Despite this, conventional quantization suffers from its structural limitation that hinders flexibility during the fine-tuning and deployment stages. Practical on-device tasks demand different quantization precisions (i.e. different bit-widths), e.g., understanding tasks tend to exhibit higher tolerance to reduced precision compared to generation tasks. Conventional quantization, typically relying on scaling factors that are incompatible across bit-widths, fails to support the on-device switching of precisions when confronted with complex real-world scenarios. To overcome the dilemma, we propose OTARo, a novel method that enables on-device LLMs to flexibly switch quantization precisions while maintaining performance robustness through once fine-tuning. OTARo introduces Shared Exponent Floating Point (SEFP), a distinct quantization mechanism, to produce different bit-widths through simple mantissa truncations of a single model. Moreover, to achieve bit-width robustness in downstream applications, OTARo performs a learning process toward losses induced by different bit-widths. The method involves two critical strategies: (1) Exploitation-Exploration Bit-Width Path Search (BPS), which iteratively updates the search path via a designed scoring mechanism; (2) Low-Precision Asynchronous Accumulation (LAA), which performs asynchronous gradient accumulations and delayed updates under low bit-widths. Experiments on popular LLMs, e.g., LLaMA3.2-1B, LLaMA3-8B, demonstrate that OTARo achieves consistently strong and robust performance for all precisions.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整技術は、様々な下流タスクへの適応性を向上するだけでなく、モデル量子化の悪影響を軽減する。
これにもかかわらず、従来の量子化は、微調整と展開の段階で柔軟性を妨げる構造的制限に悩まされている。
実際のオンデバイスタスクは異なる量子化精度(ビット幅)を必要とするが、例えば、理解タスクは生成タスクよりも精度の低下に対して高い耐性を示す傾向がある。
従来の量子化は、通常ビット幅で互換性のないスケーリング因子に依存しており、複雑な実世界のシナリオに直面した場合、デバイス上での精度の切り替えをサポートしない。
このジレンマを克服するために、オンデバイスLCMが1回の微調整によって性能の堅牢性を維持しつつ、フレキシブルに量子化精度を切り替えることのできる新しい方法であるOTARoを提案する。
OTARoは、異なる量子化機構であるSEFP(Shared Exponent Floating Point)を導入し、単一のモデルの単純なマンティッサトラニケーションによって異なるビット幅を生成する。
さらに、下流アプリケーションにおいてビット幅の堅牢性を達成するために、OTARoは異なるビット幅によって誘導される損失に対する学習プロセスを実行する。
本手法は,(1)爆発探索ビット幅経路探索(BPS),(2)低精度非同期蓄積(LAA),および低ビット幅での遅延更新の2つの重要な戦略を含む。
一般的なLLM(例えば、LLaMA3.2-1B、LLaMA3-8B)の実験では、OTARoは全ての精度で一貫して強力で堅牢な性能を達成している。
関連論文リスト
- AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs [14.922926621722235]
ハードウェアフレンドリーなBinary-Coded Quantization(BCQ)のマルチ精度拡張であるAnyBCQを提案する。
我々のプログレッシブな精度拡張メカニズムは、予め割り当てられたバイナリコードを再利用しながら、段階的にスケーリング要素を洗練します。
実験により、AnyBCQは低ビット状態における精度低下を著しく制限することが示された。
論文 参考訳(メタデータ) (2025-10-12T06:20:38Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantization [7.198819240352308]
大きな言語モデル(LLM)は、様々なタスクにまたがって素晴らしいパフォーマンスを示すが、推論のためにそれらをデプロイすることは、課題を引き起こす。
SKIM: Scaled K-means clustering wIth Mixed precisionを提案する。
モデルパープレキシティの観点からは、3ビット量子化LLaMAモデルとそれらの完全精度モデルとのギャップを平均16.3%縮小する。
論文 参考訳(メタデータ) (2024-12-05T14:19:59Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-27T13:29:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。