論文の概要: ChunkFT: Byte-Streamed Optimization for Memory-Efficient Full Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.21177v1
- Date: Wed, 20 May 2026 13:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.70014
- Title: ChunkFT: Byte-Streamed Optimization for Memory-Efficient Full Fine-Tuning
- Title(参考訳): ChunkFT: メモリ効率の良いフルファインチューニングのためのバイトストリーム最適化
- Authors: Yongkang Liu, Zijing Wang, Mengjie Zhao, Ercong Nie, Mingyang Wang, Qian Li, Feiliang Ren, Shi Feng, Daling Wang, Hinrich Schütze,
- Abstract要約: textscChunkFTはメモリ効率の良い微調整フレームワークである。
textscChunkFTは、ネットワークアーキテクチャを変更することなく任意のサブテンソルの勾配計算を可能にする。
textscChunkFTは、既存のメモリ効率のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 58.54940026861599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents \textsc{ChunkFT}, a memory-efficient fine-tuning framework that reformulates full-parameter fine-tuning around a dynamically activated working set. \textsc{ChunkFT} enables gradient computation for arbitrary sub-tensors without modifying the network architecture, providing an algorithmic foundation for optimizing arbitrary sub-networks while avoiding standard dense gradient computation. We provide a theoretical convergence analysis of \textsc{ChunkFT} in the deterministic setting. Empirically, we apply \textsc{ChunkFT} to fine-tune Llama 3-8B and Llama 3-70B using a single RTX 4090-24GB GPU and 2$\times$ H800-80GB GPUs, respectively. Full-parameter fine-tuning of a 7B model with a 1K input length requires only 13.72GB of GPU memory. The results demonstrate the effectiveness of \textsc{ChunkFT} in memory usage, running time, and optimization quality. Moreover, downstream evaluations on language understanding, mathematical reasoning, and MT-Bench show that \textsc{ChunkFT} consistently outperforms existing memory-efficient baselines. Notably, \textsc{ChunkFT} achieves performance comparable to, and in some cases exceeding, full-parameter fine-tuning. Our repository is on https://github.com/misonsky/chunk.
- Abstract(参考訳): この研究は、動的に活性化されたワーキングセットの周りにフルパラメータの微調整を再構成するメモリ効率の良い微調整フレームワークである「textsc{ChunkFT}」を提示する。
\textsc{ChunkFT} は、ネットワークアーキテクチャを変更することなく任意のサブテンソルの勾配計算を可能にし、標準的な勾配計算を回避しつつ任意のサブネットワークを最適化するアルゴリズム基盤を提供する。
本稿では, 決定論的条件下での textsc{ChunkFT} の理論的収束解析について述べる。
経験的には、単一RTX 4090-24GB GPUと2$\times$ H800-80GB GPUを用いて、Llama 3-8B と Llama 3-70B に \textsc{ChunkFT} を適用する。
1K入力長の7Bモデルのフルパラメータ細調整には、わずか13.72GBのGPUメモリが必要である。
その結果, メモリ使用量, 実行時間, 最適化品質において, textsc{ChunkFT} の有効性が示された。
さらに、言語理解、数学的推論、MT-Benchのダウンストリーム評価は、既存のメモリ効率のベースラインを一貫して上回っていることを示している。
特に、 \textsc{ChunkFT} は、フルパラメータの微調整に匹敵するパフォーマンスを達成する。
私たちのリポジトリはhttps://github.com/misonsky/chunk.comにある。
関連論文リスト
- DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Token-Driven GammaTune: Adaptive Calibration for Enhanced Speculative Decoding [0.0]
投機的復号化は大きな言語モデル推論を加速させる。
textitGammaTune と textitGammaTune+ を導入し,トークンの受入率に基づいて投機長を動的に調整する学習自由適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-28T23:41:55Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy [55.17502828915191]
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。
この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-26T21:14:32Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。