Fugu-MT 論文翻訳(概要): GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

論文の概要: GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

arxiv url: http://arxiv.org/abs/2502.12913v2
Date: Mon, 24 Feb 2025 06:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 13:51:10.481537
Title: GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning
Title（参考訳）: GSQ-Tuning:デバイス上ファインチューニングのための完全量子化トレーニングにおけるグループ共有成分インテガー
Authors: Sifan Zhou, Shuo Wang, Zhihang Yuan, Mingjia Shi, Yuzhang Shang, Dawei Yang,
Abstract要約: オンデバイス大規模言語モデル(LLM)ファインチューニングアダプタのための新しい推論フレームワークを提案する。コアとなるGroup-Shared Exponentsフォーマットは、パラメータ群間の指数を用いて、整数形式のモデルパラメータを効率的に表現する。提案手法は,BF16による微調整に匹敵する精度を実現し,メモリ使用量の1.85倍を大幅に削減することを示した。
参考スコア（独自算出の注目度）: 13.043393441785392
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) fine-tuning technologies have achieved remarkable results. However, traditional LLM fine-tuning approaches face significant challenges: they require large Floating Point (FP) computation, raising privacy concerns when handling sensitive data, and are impractical for resource-constrained edge devices. While Parameter-Efficient Fine-Tuning (PEFT) techniques reduce trainable parameters, their reliance on floating-point arithmetic creates fundamental incompatibilities with edge hardware. In this work, we introduce a novel framework for on-device LLM fine-tuning that eliminates the need for floating-point operations in both inference and training, named GSQ-Tuning. At its core is the Group-Shared Exponents Integer format, which efficiently represents model parameters in integer format using shared exponents among parameter groups. When combined with LoRA-like adapters, this enables fully integer-based fine-tuning that is both memory and compute efficient. We demonstrate that our approach achieves accuracy comparable to BF16-based fine-tuning while significantly reducing 1.85x memory usage. Moreover, compared to FP8, our method can reduce 5x power consumption and 11x chip area with same performance, making large-scale model adaptation feasible on edge devices.
Abstract（参考訳）: 大規模言語モデル(LLM)の微調整技術は目覚ましい成果を上げた。しかし、従来のLCMファインチューニングアプローチは、大きな浮動小数点(FP)計算を必要とすること、機密データを扱う際のプライバシー上の懸念が高まること、リソース制約のあるエッジデバイスでは実用的でないこと、といった大きな課題に直面している。パラメータ効率の良いファインチューニング(PEFT)技術はトレーニング可能なパラメータを減らすが、浮動小数点演算への依存はエッジハードウェアと根本的な不整合をもたらす。そこで本研究では,GSQ-Tuningという,推論とトレーニングの両方において浮動小数点演算を不要とする,オンデバイスLDMファインチューニングのための新しいフレームワークを提案する。コアとなるGroup-Shared Exponents Integerフォーマットは、パラメータ群間の共有指数を用いて、整数形式のモデルパラメータを効率的に表現する。 LoRAライクなアダプタと組み合わせることで、メモリと計算効率の両方で完全に整数ベースの微調整が可能になる。提案手法は,BF16による微調整に匹敵する精度を実現し,メモリ使用量の1.85倍を大幅に削減することを示した。さらに,FP8と比較して5倍の消費電力と11倍のチップ面積を同じ性能で削減できるため,エッジデバイス上での大規模モデル適応が実現可能である。

関連論文リスト

Structure-Activation Synergy: A Dual Efficiency Framework for Parameter-Memory Optimized Transfer Learning [8.602744958104969]
本稿では、パラメータとメモリの二重最適化を実現する革新的なフレームワークであるStructure-Activation Synergy(S2A)を提案する。我々は、S2Aの優れた効率を示し、GPUメモリ消費を75%削減し(平均4.2削減)、フル微調整精度の98.7%を維持し、わずか0.9%の調整可能なパラメータしか持たない。
論文参考訳（メタデータ） (2025-03-11T08:10:03Z)
Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.548042892597536]
本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文参考訳（メタデータ） (2025-02-17T04:37:22Z)
Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。 IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文参考訳（メタデータ） (2024-10-29T05:50:17Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
Balancing LoRA Performance and Efficiency with Simple Shard Sharing [8.827921242078883]
textbfOptimal textbfShard textbfIntegration in textbfLoRAは、単純なシャード共有機構を通じて、このトレードオフに対処する新しいPEFTアプローチである。 Fossilsは、標準的なLoRAと、その顕著な変種を、モデルパフォーマンスメトリクスと計算効率の両方で大幅に上回っている。
論文参考訳（メタデータ） (2024-09-19T10:26:42Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。プルーニングプロセス自体を最適化するためには、パラメータの代わりにサーバとクライアントの間でしきい値だけが通信される。グローバルしきい値は、集約されたパラメータの重要度を抽出することで、モデルパラメータの更新に使用される。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)
Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文参考訳（メタデータ） (2023-10-19T15:13:58Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文参考訳（メタデータ） (2022-10-08T00:36:00Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。