論文の概要: RevFFN: Memory-Efficient Full-Parameter Fine-Tuning of Mixture-of-Experts LLMs with Reversible Blocks
- arxiv url: http://arxiv.org/abs/2512.20920v1
- Date: Wed, 24 Dec 2025 03:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.669592
- Title: RevFFN: Memory-Efficient Full-Parameter Fine-Tuning of Mixture-of-Experts LLMs with Reversible Blocks
- Title(参考訳): RevFFN: 可逆ブロックを用いた実験用LLMのメモリ効率の良いフルパラメータ微調整
- Authors: Ningyuan Liu, Jing Yang, Kaitong Cai, Keze Wang,
- Abstract要約: RevFFNは、専門家(MoE)のLLMの混合のためのメモリ効率の良い微調整パラダイムである。
RevFFNは、バックプロパゲーション中に出力からの層入力アクティベーションの再構築を可能にする、慎重に設計されたリバーシブルトランスフォーマーブロックを採用している。
- 参考スコア(独自算出の注目度): 12.966077380225856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full parameter fine tuning is a key technique for adapting large language models (LLMs) to downstream tasks, but it incurs substantial memory overhead due to the need to cache extensive intermediate activations for backpropagation. This bottleneck makes full fine tuning of contemporary large scale LLMs challenging in practice. Existing distributed training frameworks such as DeepSpeed alleviate this issue using techniques like ZeRO and FSDP, which rely on multi GPU memory or CPU offloading, but often require additional hardware resources and reduce training speed. We introduce RevFFN, a memory efficient fine tuning paradigm for mixture of experts (MoE) LLMs. RevFFN employs carefully designed reversible Transformer blocks that allow reconstruction of layer input activations from outputs during backpropagation, eliminating the need to store most intermediate activations in memory. While preserving the expressive capacity of MoE architectures, this approach significantly reduces peak memory consumption for full parameter fine tuning. As a result, RevFFN enables efficient full fine tuning on a single consumer grade or server grade GPU.
- Abstract(参考訳): フルパラメータの微調整は、大規模言語モデル(LLM)を下流タスクに適応させる重要な手法であるが、バックプロパゲーションのために広範囲の中間アクティベーションをキャッシュする必要があるため、かなりのメモリオーバーヘッドを引き起こす。
このボトルネックは、現代の大規模LLMの完全な微調整を実践的に困難にしている。
既存のDeepSpeedのような分散トレーニングフレームワークでは、ZeROやFSDPといった、マルチGPUメモリやCPUオフロードに依存するテクニックを使用してこの問題を軽減するが、ハードウェアリソースの追加とトレーニング速度の削減がしばしば必要である。
本稿では,メモリ効率のよいマイクロチューニングパラダイムであるRevFFNを紹介した。
RevFFNは、バックプロパゲーション中に出力からの層入力アクティベーションの再構築を可能にする、慎重に設計されたリバーシブルトランスフォーマーブロックを採用しており、ほとんどの中間アクティベーションをメモリに格納する必要がない。
MoEアーキテクチャの表現能力を維持しながら、本手法は完全なパラメータ微調整のためのピークメモリ消費を大幅に削減する。
その結果、RevFFNは単一のコンシューマグレードまたはサーバグレードGPUで効率的なフル微調整を可能にする。
関連論文リスト
- Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs [5.88896081401217]
大規模言語モデルのオフチップメモリアクセスを大幅に削減するフレームワークであるMEADOWを紹介する。
MEADOW は GEMM ベースの LLM 実装と比較して 1.5x と 2.5x のデコードとプリフィル遅延を示す。
MEADOWは、従来のLLM最適化作業と比較して、エンドツーエンドのレイテンシの改善を40%以上達成している。
論文 参考訳(メタデータ) (2025-02-14T23:50:37Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。
これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。
我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-07T14:49:22Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。