論文の概要: Model Merging on Loss Landscape: A Geometry Perspective
- arxiv url: http://arxiv.org/abs/2605.26693v1
- Date: Tue, 26 May 2026 08:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.75387
- Title: Model Merging on Loss Landscape: A Geometry Perspective
- Title(参考訳): ロスランドスケープにおけるモデルマージ:幾何学的視点
- Authors: Juanwu Lu, Anand Bhaskar, Brian Axelrod, Ekaterina Tolstaya, Tristan Emrich,
- Abstract要約: エピマー(英: EpiMer)は、リーマン多様体上のフレシェ平均を解くためにモデルが合併するフレームワークである。
我々の理論的解析は、マージ誤差を部分空間フレシェ分散と残留エネルギーに分解する。
8つのイメージ分類タスクで微調整されたCLIP-ViTモデルを組み合わせることで、Epistemic Mergingは、マッチしたランクで3つのCLIP-ViTバックボーンのベースラインを厳密に上回る。
- 参考スコア(独自算出の注目度): 2.2624434825206543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging offers a promising avenue for knowledge integration and parallel development without retraining. Yet, existing methods either ignore the geometry of the loss landscape or rely on intractable full-space Hessian approximations. We propose EpiMer, a framework that casts model merging as solving the Fréchet mean on a Riemannian manifold and restricts the computation to a low-rank subspace spanned by the task vectors. With the expected Hessian as the metric, we reveal a connection between local curvature and epistemic uncertainty of the parameters. Our theoretical analysis decomposes the merging error bound into the subspace Fréchet variance and the residual energy, and provides a closed-form characterization of when curvature-aware merging provably outperforms flat-geometry methods. In addition, our framework unifies both curvature-aware methods and recent spectral methods as special cases of the subspace Fréchet mean with different geometric metrics. Merging fine-tuned CLIP-ViT models on eight image classification tasks, Epistemic Merging strictly outperforms the baselines on all three CLIP-ViT backbones at matched rank, improving the across-task average accuracy and worst-task accuracy on every backbone.
- Abstract(参考訳): モデルマージは、知識統合と並列開発のための、再トレーニングなしに有望な道を提供する。
しかし、既存の手法は損失ランドスケープの幾何学を無視するか、難解なフルスペース・ヘッセン近似に依存する。
モデルマージをフレシェ平均をリーマン多様体上で解くようなフレームワークであるEpiMerを提案し、その計算をタスクベクトルによって分散された低ランク部分空間に制限する。
ヘッセンを計量として、局所曲率とパラメータの疫学的不確実性との関係を明らかにする。
理論的解析により, 部分空間フレシェ分散と残留エネルギーに束縛されたマージ誤差を分解し, 曲率を意識したマージが平坦な幾何法よりも優れているかの閉形式的特徴を与える。
さらに, このフレームワークは, 局所空間フレシェの特別な場合としての曲率認識法と近年のスペクトル法の両方を, 異なる測度で統一する。
微調整されたCLIP-ViTモデルを8つのイメージ分類タスクで組み合わせることで、Epistemic Mergingは3つのCLIP-ViTバックボーンのベースラインを適合ランクで厳密に上回り、各バックボーンにおける平均精度と最悪のタスク精度を改善している。
関連論文リスト
- Riemannian geometry meets fMRI: the advantages of modeling correlation manifolds and eigenvector subspaces [0.0]
相関行列は機能的脳ネットワークの基本要約である。
既存の幾何学的手法は、しばしば閉形式演算を欠いているか、あるいは任意の領域順序に依存する。
オフログ計量とグラスマン部分空間判別という2つの要素を持つスケーラブルな幾何学的枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-21T11:22:31Z) - A Mean Curvature Approach to Boundary Detection: Geometric Insights for Unsupervised Learning [52.452902154360565]
本稿では,幾何学的機械学習に基づく新しい幾何学的フレームワークであるMean Curvature Boundary Points (MCBP)を紹介する。
MCBPはデータ多様体の固有曲率を明示的にモデル化し、原理化された多様体のパラメトリゼーションを必要としない点平均曲率を計算する。
合成および実世界のデータセットの実験により、MCBPはクラスタリング性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-05T20:19:09Z) - Generalizing the Geometry of Model Merging Through Frechet Averages [13.893485499000219]
我々は、幾何学だけでなく平均化手順自体も対称性が不変であることを示し、対称性を意識したマージを実現する。
一般解として、フレシェ平均化として結合し、適切な多様体上の測地距離の和を最小化するパラメータを選択する。
論文 参考訳(メタデータ) (2026-04-29T20:02:08Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。