論文の概要: Generalizing the Geometry of Model Merging Through Frechet Averages
- arxiv url: http://arxiv.org/abs/2604.27155v2
- Date: Thu, 07 May 2026 12:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.27038
- Title: Generalizing the Geometry of Model Merging Through Frechet Averages
- Title(参考訳): フレッシュ平均によるモデルマージの幾何学の一般化
- Authors: Marvin F. da Silva, Mohammed Adnan, Felix Dangel, Sageev Oore,
- Abstract要約: 我々は、幾何学だけでなく平均化手順自体も対称性が不変であることを示し、対称性を意識したマージを実現する。
一般解として、フレシェ平均化として結合し、適切な多様体上の測地距離の和を最小化するパラメータを選択する。
- 参考スコア(独自算出の注目度): 13.893485499000219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging aims to combine multiple models into one without additional training. Naïve parameter-space averaging can be fragile under architectural symmetries, as their geometry does not take them into account. In this work we show that not only the geometry, but also the averaging procedure itself, must be symmetry-invariant to achieve symmetry-aware merges. Consequently, we propose a general solution: merging as Fréchet averaging, i.e., selecting parameters that minimize a sum of geodesic distances on an appropriate manifold. In this view, the key design choice is the overall geometry, i.e., the choice of metric, manifold, and distance approximation, that determines what it means for two models to be "close". We show that Fréchet averaging, combined with simplifying assumptions, contains Fisher merging. Building on this, we examine the particular case of low-rank adapters (LoRA), whose symmetries induce a distinct geometry: that of a quotient manifold. We outline the limitations of current LoRA merging methods, propose a practical algorithm for this setting, and show how they compare with other commonly used approaches.
- Abstract(参考訳): モデルマージは、追加のトレーニングなしで複数のモデルを1つに統合することを目的としている。
ネーブのパラメータ空間平均化は、それらの幾何学がそれらを考慮しないため、アーキテクチャ対称性の下で脆弱である。
この研究において、幾何学だけでなく平均化の手順自体も対称性が不変であることを示し、対称性を意識したマージを実現する。
その結果、フレシェ平均化(Fréchet averaging)として、すなわち、適切な多様体上の測地距離の和を最小化するパラメータを選択するという一般的な解を提案する。
この観点では、鍵となる設計選択は全体幾何学、すなわち計量、多様体、距離近似の選択であり、2つのモデルが「閉」であることの意味を決定するものである。
Fréchet平均化は仮定の単純化と組み合わせて、Fisher mergingを含むことを示す。
このことから、低ランクアダプタ (LoRA) の特定の場合について検討し、その対称性は、商多様体(英語版)(quotient manifold)の幾何性(英語版)を誘導する。
我々は,現在のLoRAマージ手法の限界を概説し,この設定のための実用的なアルゴリズムを提案し,それらが他の一般的な手法と比較する方法を示す。
関連論文リスト
- Riemannian Consistency Model [57.933800575074535]
本稿では,Riemannian Consistency Model (RCM)を提案する。
RCMの離散的および連続的な訓練目標に対する閉形式解を導出する。
我々は、RCMの目的を解釈するためのユニークなキネマティクスの視点を提供し、新しい理論的な角度を提供する。
論文 参考訳(メタデータ) (2025-10-01T14:57:25Z) - Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - The Fisher-Rao geometry of CES distributions [50.50897590847961]
Fisher-Rao情報幾何学は、ツールを微分幾何学から活用することができる。
楕円分布の枠組みにおけるこれらの幾何学的ツールの実用的利用について述べる。
論文 参考訳(メタデータ) (2023-10-02T09:23:32Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Regularizing Towards Soft Equivariance Under Mixed Symmetries [23.603875905608565]
混合近似対称性を持つデータセットのモデルを構築するための正規化器に基づく手法を提案する。
提案手法は,近似対称性のレベルを正確に発見しながら,従来の手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-06-01T05:33:41Z) - Flow Matching on General Geometries [43.252817099263744]
本稿では,多様体上の連続正規化フローをトレーニングするための,単純かつ強力なフレームワークを提案する。
単純な測地ではシミュレーションが不要であり、発散を必要としないことを示し、その対象ベクトル場を閉形式で計算する。
本手法は,多くの実世界の非ユークリッドデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T18:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。