Fugu-MT 論文翻訳(概要): MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

論文の概要: MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

arxiv url: http://arxiv.org/abs/2511.00056v1
Date: Tue, 28 Oct 2025 17:06:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:26.549046
Title: MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling
Title（参考訳）: MISA:モジュールワイド・インシデンス・サンプリングによるメモリ効率の良いLLM最適化
Authors: Yuxi Liu, Renjia Deng, Yutong He, Xue Wang, Tao Yao, Kun Yuan,
Abstract要約: MISA(Module-wise SAmpling)は、各レイヤを小さなモジュールに分割する新しい手法である。 MISAは,既存のベースライン方式よりもメモリ節約に有効であることを示す。
参考スコア（独自算出の注目度）: 17.839400050573932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The substantial memory demands of pre-training and fine-tuning large language models (LLMs) require memory-efficient optimization algorithms. One promising approach is layer-wise optimization, which treats each transformer block as a single layer and optimizes it sequentially, while freezing the other layers to save optimizer states and activations. Although effective, these methods ignore the varying importance of the modules within each layer, leading to suboptimal performance. Moreover, layer-wise sampling provides only limited memory savings, as at least one full layer must remain active during optimization. To overcome these limitations, we propose Module-wise Importance SAmpling (MISA), a novel method that divides each layer into smaller modules and assigns importance scores to each module. MISA uses a weighted random sampling mechanism to activate modules, provably reducing gradient variance compared to layer-wise sampling. Additionally, we establish an $\mathcal{O}(1/\sqrt{K})$ convergence rate under non-convex and stochastic conditions, where $K$ is the total number of block updates, and provide a detailed memory analysis showcasing MISA's superiority over existing baseline methods. Experiments on diverse learning tasks validate the effectiveness of MISA. Source code is available at https://github.com/pkumelon/MISA.
Abstract（参考訳）: 事前学習と微調整の大規模言語モデル(LLM)のメモリ要求は、メモリ効率の最適化アルゴリズムを必要とする。 1つの有望なアプローチは、各トランスフォーマーブロックを単一のレイヤとして扱い、順次最適化すると同時に、他のレイヤを凍結して、オプティマイザ状態とアクティベーションを節約する、レイヤワイズ最適化である。有効ではあるが、これらの手法は各レイヤ内のモジュールの重要性を無視し、最適以下のパフォーマンスをもたらす。さらに、レイヤワイドサンプリングは、最適化中に少なくとも1つのフルレイヤがアクティブでなければならないため、限られたメモリ節約しか提供しない。これらの制限を克服するために,各レイヤを小さなモジュールに分割し,各モジュールに重要なスコアを割り当てる新しい手法であるモジュールワイド・インシデンス・サンプリング(MISA)を提案する。 MISAは加群を活性化するために重み付けされたランダムサンプリング機構を使用し、層ワイドサンプリングと比較して勾配のばらつきを良好に低減する。さらに、非凸および確率条件下での(\mathcal{O}(1/\sqrt{K})\)収束速度を確立し、K$はブロック更新の総数であり、MISAが既存のベースラインメソッドよりも優れていることを示す詳細なメモリ分析を提供する。多様な学習課題の実験により, MISAの有効性が検証された。ソースコードはhttps://github.com/pkumelon/MISAで入手できる。

関連論文リスト

Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
A Minimalist Optimizer Design for LLM Pretraining [31.996047271119156]
大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。 GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
論文参考訳（メタデータ） (2025-06-20T00:10:35Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-25T05:45:12Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。 LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。