論文の概要: From Coefficients to Directions: Rethinking Model Merging with Directional Alignment
- arxiv url: http://arxiv.org/abs/2512.00391v1
- Date: Sat, 29 Nov 2025 08:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.216992
- Title: From Coefficients to Directions: Rethinking Model Merging with Directional Alignment
- Title(参考訳): 係数から方向へ:方向アライメントによるモデルマージの再考
- Authors: Zhikang Chen, Sen Cui, Deheng Ye, Min Zhang, Gang Niu, Yu Zhang, Masashi Sugiyama, Tingting Zhu,
- Abstract要約: パラメータと特徴空間の両面に一貫した方向構造を整列する,方向アライメント付きemphMerging(method)という統一幾何学的枠組みを導入する。
分析の結果、指向性アライメントは構造的コヒーレンスを改善し、ベンチマーク、モデルスケール、タスク構成にまたがる広範な実験により、我々のアプローチの有効性がさらに検証された。
- 参考スコア(独自算出の注目度): 66.99062575537555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a practical paradigm for integrating multiple independently trained models into a single model without joint retraining. Previous studies have demonstrated the effectiveness of combining parameters through strategies such as parameter decomposition, coefficient optimization, and subspace learning, significantly reducing the need for expensive joint training and achieving strong empirical performance across diverse tasks. However, these approaches predominantly treat merging as a problem of parameter space decomposition or fusion coefficient optimization, while overlooking the critical role of directional information in both parameter and feature spaces. In practice, naïve merging introduces inconsistencies in dominant parameter directions and disrupts structural coherence across models, which can degrade performance. Moreover, coefficient-based optimization methods implicitly assume compatible feature-space directions across models. However, Neural Collapse indicates that class features follow structured directional patterns, which may differ across independently trained models, making coefficient optimization alone insufficient. In this work, we emphasize the importance of \emph{directional alignment} and introduce a unified geometric framework, \emph{Merging with Directional Alignment} (\method{}), which aligns directional structures consistently in both the parameter and feature spaces. Our analysis shows that directional alignment improves structural coherence, and extensive experiments across benchmarks, model scales, and task configurations further validate the effectiveness of our approach.
- Abstract(参考訳): モデルマージは、独立に訓練された複数のモデルを、ジョイントリトレーニングなしで単一のモデルに統合するための実践パラダイムとして登場した。
従来の研究では、パラメータ分解、係数最適化、サブスペース学習といった手法によるパラメータの組み合わせの有効性が実証されており、高価なジョイントトレーニングの必要性を著しく低減し、多様なタスクにまたがる強力な経験的パフォーマンスを実現している。
しかし、これらの手法は、パラメータ空間の分解や融合係数の最適化の問題としてマージングを主に扱い、パラメータ空間と特徴空間の両方における方向情報の重要な役割を見極めている。
実際には、ネーブマージは支配的なパラメータ方向の不整合を導入し、モデル間の構造的コヒーレンスを乱し、性能を低下させる。
さらに、係数に基づく最適化手法は、モデル間の互換性のある特徴空間方向を暗黙的に仮定する。
しかし、Neural Collapseは、クラス特徴が構造化方向パターンに従うことを示しており、これは独立に訓練されたモデルによって異なる可能性があるため、係数の最適化だけでは不十分である。
本研究では, パラメータと特徴空間の両方で一貫した方向構造を整列する, 統一的な幾何学的枠組み, \emph{Merging with Directional Alignment} (\method{}) を導入する。
分析の結果、指向性アライメントは構造的コヒーレンスを改善し、ベンチマーク、モデルスケール、タスク構成にまたがる広範な実験により、我々のアプローチの有効性がさらに検証された。
関連論文リスト
- An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文 参考訳(メタデータ) (2025-05-22T02:46:08Z) - Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Manifold Alignment-Based Multi-Fidelity Reduced-Order Modeling Applied
to Structural Analysis [0.8808021343665321]
本研究は,最近開発されたパラメトリック,非貫入性,多次元縮小次モデリング法の高次元変位場および応力場への適用について述べる。
その結果、不整合格子を用いた構造シミュレーションから得られる出力、あるいは関連する異なる位相は、容易に単一の予測モデルに組み合わされることが示されている。
新しいマルチフィデリティ縮小次数モデルでは,単一フィデリティモデルと比較して計算コストが低い場合に,比較的高い予測精度が得られる。
論文 参考訳(メタデータ) (2022-06-14T15:28:21Z) - On the Parameter Combinations That Matter and on Those That do Not [0.0]
モデルパラメータの非識別性を特徴付けるためのデータ駆動型手法を提案する。
Diffusion Mapsとその拡張を利用することで、動的出力の振る舞いを特徴づけるために必要なパラメータの最小の組み合わせを発見する。
論文 参考訳(メタデータ) (2021-10-13T13:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。