論文の概要: Orthogonal Model Merging
- arxiv url: http://arxiv.org/abs/2602.05943v1
- Date: Thu, 05 Feb 2026 17:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.10272
- Title: Orthogonal Model Merging
- Title(参考訳): 直交モデルマージ
- Authors: Sihan Yang, Kexuan Shi, Weiyang Liu,
- Abstract要約: 複雑な言語モデル(LLM)のマージは、多様な機能を単一の統一モデルに統合する上で、ますます重要になっている。
モデルの重みの幾何学的構造を保存するためにオルソゴンモデルマージ(オルソマージ)を提案する。
- 参考スコア(独自算出の注目度): 21.902153344111223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Merging finetuned Large Language Models (LLMs) has become increasingly important for integrating diverse capabilities into a single unified model. However, prevailing model merging methods rely on linear arithmetic in Euclidean space, which often destroys the intrinsic geometric properties of pretrained weights, such as hyperspherical energy. To address this, we propose Orthogonal Model Merging (OrthoMerge), a method that performs merging operations on the Riemannian manifold formed by the orthogonal group to preserve the geometric structure of the model's weights. By mapping task-specific orthogonal matrices learned by Orthogonal Finetuning (OFT) to the Lie algebra, OrthoMerge enables a principled yet efficient integration that takes into account both the direction and intensity of adaptations. In addition to directly leveraging orthogonal matrices obtained by OFT, we further extend this approach to general models finetuned with non-OFT methods (i.e., low-rank finetuning, full finetuning) via an Orthogonal-Residual Decoupling strategy. This technique extracts the orthogonal components of expert models by solving the orthogonal Procrustes problem, which are then merged on the manifold of the orthogonal group, while the remaining linear residuals are processed through standard additive merging. Extensive empirical results demonstrate the effectiveness of OrthoMerge in mitigating catastrophic forgetting and maintaining model performance across diverse tasks.
- Abstract(参考訳): 複雑な言語モデル(LLM)のマージは、多様な機能を単一の統一モデルに統合する上で、ますます重要になっている。
しかし、一般的なモデルマージング法はユークリッド空間における線形算術に依存しており、これはしばしば超球面エネルギーのような事前訓練された重みの内在的な幾何学的性質を破壊する。
これを解決するために、直交群によって形成されるリーマン多様体上のマージ演算を行い、モデルの重みの幾何学的構造を保存する方法であるオルソゴンモデルマージング(オルソマージ)を提案する。
Orthogonal Finetuning (OFT) が学んだタスク固有直交行列をリー代数にマッピングすることにより、OrthoMerge は適応の方向と強度の両方を考慮に入れながら、原理的かつ効率的な積分を可能にする。
OFTにより得られる直交行列を直接活用するだけでなく、直交-残留疎結合戦略により非OFT法(低ランク微調整、フル微調整)で微調整された一般モデルにもこのアプローチを拡張します。
この手法は、直交プロクリスト問題を解くことによって専門家モデルの直交成分を抽出し、直交群の多様体上でマージされ、残りの線形残基は標準加法的マージによって処理される。
大規模な実証実験により,多種多様なタスクにわたるモデル性能の維持と,破滅的な忘れ込みを緩和するOrthoMergeの有効性が示された。
関連論文リスト
- Learning Geometry: A Framework for Building Adaptive Manifold Models through Metric Optimization [8.201374511929538]
本稿では,従来のパラメータ最適化を超越した機械学習のパラダイムを提案する。
既定位相を持つ多様体上の計量テンソル場を最適化することにより、モデル空間の幾何学的構造を動的に形成する。
この研究は、その幾何学とトポロジーを自律的に進化させることができる完全にダイナミックな「メタ・ラーナー」を構築するための確固たる基礎を築いた。
論文 参考訳(メタデータ) (2025-10-30T01:53:32Z) - Relaxed Total Generalized Variation Regularized Piecewise Smooth Mumford-Shah Model for Triangulated Surface Segmentation [0.7837881800517112]
緩和された全一般化変分正規化(rTGV)を利用して,一括スムーズなMSメッシュセグメンテーションモデルを提案する。
新しいモデルは、メッシュの特徴関数は、断片的定数関数とアスモス関数の和で近似できると仮定する。
新たに導入された手法は、不規則な構造を持つメッシュを分割し、最短境界よりも優れた境界を得るのに有効である。
論文 参考訳(メタデータ) (2025-07-25T14:00:32Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - ADMM-MM Algorithm for General Tensor Decomposition [7.0326155922512275]
提案アルゴリズムは3つの基本損失関数(ell$-loss, $ell$-loss, KL divergence)と様々な低ランクテンソル分解モデル(CP, Tucker, TT, TR)をサポートする。
提案したアルゴリズムにより広帯域のアプリケーションを解くことができ、プラグイン・アンド・プレイ方式で既存のテンソル分解モデルに容易に拡張できることを示す。
論文 参考訳(メタデータ) (2023-12-19T00:17:34Z) - Neural Lattice Reduction: A Self-Supervised Geometric Deep Learning Approach [12.679411410749521]
本稿では,ニューラルネットワークによる格子縮小問題に対するアルゴリズム空間のパラメータ化と,教師付きデータを持たないアルゴリズムの探索を行うことが可能であることを示す。
本研究では,一様行列の因子を出力する深層ニューラルネットワークを設計し,非直交格子基底をペナルライズして自己指導的に学習する。
提案手法は,一連のベンチマークにおいて,Lenstra-Lenstra-Lov'aszアルゴリズムに匹敵する複雑性と性能を持つアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T13:54:35Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Improving Metric Dimensionality Reduction with Distributed Topology [68.8204255655161]
DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。
DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも多くの一般的なデータセットで優れています。
論文 参考訳(メタデータ) (2021-06-14T17:19:44Z) - Jointly Modeling and Clustering Tensors in High Dimensions [6.072664839782975]
テンソルの合同ベンチマークとクラスタリングの問題を考察する。
本稿では,統計的精度の高い近傍に幾何的に収束する効率的な高速最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-15T21:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。