Fugu-MT 論文翻訳(概要): Bridging Training and Merging Through Momentum-Aware Optimization

論文の概要: Bridging Training and Merging Through Momentum-Aware Optimization

arxiv url: http://arxiv.org/abs/2512.17109v1
Date: Thu, 18 Dec 2025 22:37:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-22 19:25:54.192571
Title: Bridging Training and Merging Through Momentum-Aware Optimization
Title（参考訳）: モーメントアウェア最適化によるブリッジトレーニングとマージ
Authors: Alireza Moayedikia, Alicia Troncoso,
Abstract要約: 大規模ニューラルネットワークとタスク固有の計算モデルのトレーニングには、パラメータの重要度推定が必要である。トレーニング中に現在の計算曲率情報を処理し、それを破棄し、類似した情報をマージするために再計算する。トレーニング中に運動量と曲率の統計を分解し、類似した情報をマージするために再計算する統合フレームワークを導入する。
参考スコア（独自算出の注目度）: 8.035521056416242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large neural networks and merging task-specific models both exploit low-rank structure and require parameter importance estimation, yet these challenges have been pursued in isolation. Current workflows compute curvature information during training, discard it, then recompute similar information for merging -- wasting computation and discarding valuable trajectory data. We introduce a unified framework that maintains factorized momentum and curvature statistics during training, then reuses this information for geometry-aware model composition. The proposed method achieves memory efficiency comparable to state-of-the-art approaches while accumulating task saliency scores that enable curvature-aware merging without post-hoc Fisher computation. We establish convergence guarantees for non-convex objectives with approximation error bounded by gradient singular value decay. On natural language understanding benchmarks, curvature-aware parameter selection outperforms magnitude-only baselines across all sparsity levels, with multi-task merging improving over strong baselines. The proposed framework exhibits rank-invariant convergence and superior hyperparameter robustness compared to existing low-rank optimizers. By treating the optimization trajectory as a reusable asset rather than discarding it, our approach eliminates redundant computation while enabling more principled model composition.
Abstract（参考訳）: 大規模ニューラルネットワークのトレーニングとタスク固有モデルのマージは、低ランク構造とパラメータ重要度推定の両方を活用するが、これらの課題は分離して追求されている。現在のワークフローでは、トレーニング中に曲率情報を計算し、それを破棄し、類似した情報をマージするために再計算します。学習中の運動量と曲率の統計量を維持する統一的なフレームワークを導入し,この情報を幾何学的モデル構成に再利用する。提案手法は,時間後フィッシャー計算を使わずに曲率を意識したマージが可能なタスクサリエンシスコアを蓄積しながら,最先端手法に匹敵するメモリ効率を実現する。我々は、勾配特異値減衰で有界な近似誤差を持つ非凸目標に対する収束保証を確立する。自然言語理解ベンチマークでは、曲率を意識したパラメータ選択は、すべての空間レベルにおいて、等級のみのベースラインよりも優れており、マルチタスクのマージは、強いベースラインよりも改善されている。提案手法は,既存の低ランクオプティマイザと比較して,ランク不変収束と高パラメータロバスト性を示す。最適化トラジェクトリを捨てるのではなく再利用可能な資産として扱うことにより、より原理化されたモデル構成を実現しつつ冗長な計算を不要にする。

関連論文リスト

Scalable Gaussian process modeling of parametrized spatio-temporal fields [2.005299372367689]
固定時間領域やパラメータ時間領域上でのパラメータ化方程式の学習のためのスケーラブルなフレームワークを開発する。提案手法の鍵となる特徴は,後部平均と基本的に同じ計算コストで,後部分散の効率的な計算である。結果は、特に下流タスクに不確実性推定を必要とする場合、データ駆動サロゲートモデリングの効果的なツールとして提案フレームワークを確立した。
論文参考訳（メタデータ） (2026-02-27T20:16:21Z)
Closing the Generalization Gap in Parameter-efficient Federated Edge Learning [43.00634399799955]
フェデレーションエッジラーニング(FEEL)は人工知能(AI)のための有望な基盤を提供する限定的で異種なローカルデータセット、およびリソース制限されたデプロイメントは、モデル一般化とリソース利用の両方を著しく低下させる。本稿では,モデル最小化と一般化選択を併用して,このような課題に対処するフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-28T15:34:09Z)
OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。 OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-09-26T15:31:32Z)
On Information Geometry and Iterative Optimization in Model Compression: Operator Factorization [5.952537659103525]
我々は、多くのモデル圧縮手法が、この射影に対する情報分岐を暗黙的に近似するものとして理解することができると論じる。ソフトランク制約を受けるニューラルネットワークのトレーニングにおける反復特異値しきい値の収束性を証明する。
論文参考訳（メタデータ） (2025-07-12T23:39:14Z)
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。 NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文参考訳（メタデータ） (2025-05-22T02:46:08Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Robust Hyperbolic Learning with Curvature-Aware Optimization [7.89323764547292]
現在の双曲型学習アプローチは、過度に適合し、計算コストが高く、不安定になりがちである。本稿では,双曲的埋め込みを制限し,近似誤差を低減するために,新しい微調整可能な双曲的スケーリング手法を提案する。提案手法は,コンピュータビジョン,脳波分類,階層的メトリック学習タスクにおける一貫した改善を示す。
論文参考訳（メタデータ） (2024-05-22T20:30:14Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Relative gradient optimization of the Jacobian term in unsupervised deep learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-06-26T16:41:08Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。