論文の概要: Bridging Training and Merging Through Momentum-Aware Optimization
- arxiv url: http://arxiv.org/abs/2512.17109v1
- Date: Thu, 18 Dec 2025 22:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.192571
- Title: Bridging Training and Merging Through Momentum-Aware Optimization
- Title(参考訳): モーメントアウェア最適化によるブリッジトレーニングとマージ
- Authors: Alireza Moayedikia, Alicia Troncoso,
- Abstract要約: 大規模ニューラルネットワークとタスク固有の計算モデルのトレーニングには、パラメータの重要度推定が必要である。
トレーニング中に現在の計算曲率情報を処理し、それを破棄し、類似した情報をマージするために再計算する。
トレーニング中に運動量と曲率の統計を分解し、類似した情報をマージするために再計算する統合フレームワークを導入する。
- 参考スコア(独自算出の注目度): 8.035521056416242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large neural networks and merging task-specific models both exploit low-rank structure and require parameter importance estimation, yet these challenges have been pursued in isolation. Current workflows compute curvature information during training, discard it, then recompute similar information for merging -- wasting computation and discarding valuable trajectory data. We introduce a unified framework that maintains factorized momentum and curvature statistics during training, then reuses this information for geometry-aware model composition. The proposed method achieves memory efficiency comparable to state-of-the-art approaches while accumulating task saliency scores that enable curvature-aware merging without post-hoc Fisher computation. We establish convergence guarantees for non-convex objectives with approximation error bounded by gradient singular value decay. On natural language understanding benchmarks, curvature-aware parameter selection outperforms magnitude-only baselines across all sparsity levels, with multi-task merging improving over strong baselines. The proposed framework exhibits rank-invariant convergence and superior hyperparameter robustness compared to existing low-rank optimizers. By treating the optimization trajectory as a reusable asset rather than discarding it, our approach eliminates redundant computation while enabling more principled model composition.
- Abstract(参考訳): 大規模ニューラルネットワークのトレーニングとタスク固有モデルのマージは、低ランク構造とパラメータ重要度推定の両方を活用するが、これらの課題は分離して追求されている。
現在のワークフローでは、トレーニング中に曲率情報を計算し、それを破棄し、類似した情報をマージするために再計算します。
学習中の運動量と曲率の統計量を維持する統一的なフレームワークを導入し,この情報を幾何学的モデル構成に再利用する。
提案手法は,時間後フィッシャー計算を使わずに曲率を意識したマージが可能なタスクサリエンシスコアを蓄積しながら,最先端手法に匹敵するメモリ効率を実現する。
我々は、勾配特異値減衰で有界な近似誤差を持つ非凸目標に対する収束保証を確立する。
自然言語理解ベンチマークでは、曲率を意識したパラメータ選択は、すべての空間レベルにおいて、等級のみのベースラインよりも優れており、マルチタスクのマージは、強いベースラインよりも改善されている。
提案手法は,既存の低ランクオプティマイザと比較して,ランク不変収束と高パラメータロバスト性を示す。
最適化トラジェクトリを捨てるのではなく再利用可能な資産として扱うことにより、より原理化されたモデル構成を実現しつつ冗長な計算を不要にする。
関連論文リスト
- Closing the Generalization Gap in Parameter-efficient Federated Edge Learning [43.00634399799955]
フェデレーションエッジラーニング(FEEL)は人工知能(AI)のための有望な基盤を提供する
限定的で異種なローカルデータセット、およびリソース制限されたデプロイメントは、モデル一般化とリソース利用の両方を著しく低下させる。
本稿では,モデル最小化と一般化選択を併用して,このような課題に対処するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-28T15:34:09Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Robust Hyperbolic Learning with Curvature-Aware Optimization [7.89323764547292]
現在の双曲型学習アプローチは、過度に適合し、計算コストが高く、不安定になりがちである。
本稿では,双曲的埋め込みを制限し,近似誤差を低減するために,新しい微調整可能な双曲的スケーリング手法を提案する。
提案手法は,コンピュータビジョン,脳波分類,階層的メトリック学習タスクにおける一貫した改善を示す。
論文 参考訳(メタデータ) (2024-05-22T20:30:14Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。