論文の概要: Functionality-Oriented LLM Merging on the Fisher--Rao Manifold
- arxiv url: http://arxiv.org/abs/2603.04972v1
- Date: Thu, 05 Mar 2026 09:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.157621
- Title: Functionality-Oriented LLM Merging on the Fisher--Rao Manifold
- Title(参考訳): 漁業における機能指向型LLMマージ-ラオマニフォールド
- Authors: Jiayu Wang, Zuojun Ye, Wenpeng Yin,
- Abstract要約: 重み空間のマージは、複数の微調整LDMを再訓練せずに単一のモデルに組み合わせることを目的としている。
我々は,標準を守り,マルチエキスパートマージに直接一般化する軽量な球面プロキシを用いて,実用的な固定点アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 14.349284217707575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight-space merging aims to combine multiple fine-tuned LLMs into a single model without retraining, yet most existing approaches remain fundamentally parameter-space heuristics. This creates three practical limitations. First, linear averaging, task vectors, and related rules operate on Euclidean coordinates, even though the desired goal is to merge functionality, i.e., predictive behaviors across tasks. Second, when the source checkpoints are farther apart or more heterogeneous, Euclidean blends often trigger representation collapse, manifested as activation variance shrinkage and effective-rank degradation, which sharply degrades accuracy. Third, many geometry-inspired methods are most natural for two-model interpolation and do not extend cleanly to merging N>2 experts with a principled objective. We address these issues by formulating model merging as computing a weighted Karcher mean on the Fisher--Rao manifold, which is locally equivalent to minimizing a KL-based function distance between predictive distributions. We derive a practical fixed-point algorithm using a lightweight spherical proxy that preserves norms and generalizes directly to multi-expert merging. Across various benchmarks and collapse diagnostics, our method remains stable as the number and heterogeneity of merged models increase, consistently outperforming prior baselines.
- Abstract(参考訳): 重み空間のマージは、複数の微調整LDMを再訓練せずに単一のモデルに組み合わせることを目的としているが、既存のほとんどのアプローチは基本的にパラメータ空間ヒューリスティックのままである。
これは3つの現実的な限界を生み出します。
第一に、線形平均化、タスクベクトル、および関連する規則はユークリッド座標で作用するが、目的は、機能、すなわちタスクをまたいだ予測行動を統合することである。
第2に、ソースチェックポイントがもっと離れている場合、ユークリッドブレンドは、しばしば表現の崩壊を引き起こす。
第三に、幾何にインスパイアされた多くの手法は、2モデル補間において最も自然であり、N>2の専門家を原則的目的と組み合わせることにきれいに拡張しない。
モデルマージを加重カルチャー平均の計算として定式化することでこれらの問題に対処する。
我々は,標準を守り,マルチエキスパートマージに直接一般化する軽量な球面プロキシを用いて,実用的な固定点アルゴリズムを導出する。
様々なベンチマークや崩壊診断において, 統合モデルの数や不均一性が増加し, 常に先行ベースラインを上回っているため, 本手法は安定なままである。
関連論文リスト
- Model Merging via Multi-Teacher Knowledge Distillation [11.543771846135021]
モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。
我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
論文 参考訳(メタデータ) (2025-12-24T17:10:44Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文 参考訳(メタデータ) (2025-05-22T02:46:08Z) - DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - OCMG-Net: Neural Oriented Normal Refinement for Unstructured Point Clouds [18.234146052486054]
非構造点雲から指向性正規項を推定するための頑健な精錬法を提案する。
我々のフレームワークは、初期指向の正規性を洗練させるために、特徴空間に符号配向とデータ拡張を組み込んでいる。
従来手法に存在した騒音による方向の不整合の問題に対処するため, チャンファー正規距離と呼ばれる新しい指標を導入する。
論文 参考訳(メタデータ) (2024-09-02T09:30:02Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Efficient semidefinite bounds for multi-label discrete graphical models [6.226454551201676]
このようなモデルにおける主要なクエリの1つは、Posteri(MAP)ネットワークのコストに関するSDPWCSP関数を特定することである。
従来の二重化制約手法と,行ごとの更新に基づく専用SDP/Monteiroスタイルの手法を検討する。
論文 参考訳(メタデータ) (2021-11-24T13:38:34Z) - Robust Multi-view Registration of Point Sets with Laplacian Mixture
Model [25.865100974015412]
重み付きラプラシアン分布に基づいて複数の点集合を整列させる新しい確率的生成法を提案する。
本稿では,提案手法の利点を,ベンチマークの挑戦的データセットに対する最先端手法と比較することによって示す。
論文 参考訳(メタデータ) (2021-10-26T14:49:09Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。