論文の概要: Mano: Restriking Manifold Optimization for LLM Training
- arxiv url: http://arxiv.org/abs/2601.23000v1
- Date: Fri, 30 Jan 2026 14:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.489353
- Title: Mano: Restriking Manifold Optimization for LLM Training
- Title(参考訳): Mano: LLMトレーニングのための再帰的マニフォールド最適化
- Authors: Yufei Gu, Zeke Xie,
- Abstract要約: 大規模言語モデル(LLM)は人工知能の重要な進歩として現れている。
Manoは、多様体最適化とモダン性の間のパフォーマンスギャップを橋渡しした最初の人です。
- 参考スコア(独自算出の注目度): 11.778746551502593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の大幅な進歩として登場したが、LLMを訓練するためのハードウェアと計算コストも著しく負担がかかる。
最先端のオプティマイザの中で、AdamWは対角曲率推定に依存し、構造特性を無視する一方、Muonは曲率情報を失うことを犠牲にして、グローバルスペクトル正規化を適用する。
本研究では,LLMの学習において,2つの制約に対処できる多様体最適化法について再検討した。
モデルパラメータの接空間に運動量を革新的に投影し、それを回転斜め多様体に制約することにより、多様体最適化と近代最適化の間の性能ギャップを埋める新しい、強力で効率的な最適化者 **Mano** を提案する。
LLaMAとQwen3モデルの大規模な実験により、マノはメモリ消費と計算の複雑さを減らしても、AdamWとMuonを一貫して上回り、空間と時間効率の面でParetoフロンティアの拡大を示唆している。
関連論文リスト
- Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。