論文の概要: CAMEx: Curvature-aware Merging of Experts
- arxiv url: http://arxiv.org/abs/2502.18821v2
- Date: Mon, 03 Mar 2025 16:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.75289
- Title: CAMEx: Curvature-aware Merging of Experts
- Title(参考訳): CAMEx: 専門家の曲線認識によるマージ
- Authors: Dung V. Nguyen, Minh H. Nguyen, Luc Q. Nguyen, Rachel S. Y. Teo, Tan M. Nguyen, Linh Duy Tran,
- Abstract要約: モデルトレーニングと微調整の間に専門家をマージするための既存の手法はユークリッド幾何学に依存している。
曲率を意識したマージ法は、フィッシャー情報行列を近似するために追加の情報と計算資源を必要とする。
我々は,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を組み込んだ新しい専門家統合プロトコルであるCAMExを紹介する。
- 参考スコア(独自算出の注目度): 1.5479848902142663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for merging experts during model training and fine-tuning predominantly rely on Euclidean geometry, which assumes a flat parameter space. This assumption can limit the model's generalization ability, especially during the pre-training phase, where the parameter manifold might exhibit more complex curvature. Curvature-aware merging methods typically require additional information and computational resources to approximate the Fisher Information Matrix, adding memory overhead. In this paper, we introduce CAMEx (Curvature-Aware Merging of Experts), a novel expert merging protocol that incorporates natural gradients to account for the non-Euclidean curvature of the parameter manifold. By leveraging natural gradients, CAMEx adapts more effectively to the structure of the parameter space, improving alignment between model updates and the manifold's geometry. This approach enhances both pre-training and fine-tuning, resulting in better optimization trajectories and improved generalization without the substantial memory overhead typically associated with curvature-aware methods. Our contributions are threefold: (1) CAMEx significantly outperforms traditional Euclidean-based expert merging techniques across various natural language processing tasks, leading to enhanced performance during pre-training and fine-tuning; (2) we introduce a dynamic merging architecture that optimizes resource utilization, achieving high performance while reducing computational costs, facilitating efficient scaling of large language models; and (3) we provide both theoretical and empirical evidence to demonstrate the efficiency of our proposed method. The code is publicly available at: https://github.com/kpup1710/CAMEx.
- Abstract(参考訳): モデルトレーニングと微調整の間に専門家をマージするための既存の方法は、主に平坦なパラメータ空間を仮定するユークリッド幾何学に依存している。
この仮定は、特にパラメータ多様体がより複雑な曲率を示す事前学習フェーズにおいて、モデルの一般化能力を制限することができる。
曲率を意識したマージ法は、通常、Fisher Information Matrixを近似するために追加の情報と計算資源を必要とし、メモリオーバーヘッドを増大させる。
本稿では,CAMEx(Curvature-Aware Merging of Experts)という,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を取り入れた新しい専門家統合プロトコルを紹介する。
自然な勾配を利用することにより、CAMEx はパラメータ空間の構造により効果的に対応し、モデルの更新と多様体の幾何学との整合性を改善する。
このアプローチは事前学習と微調整の両方を強化し、最適化トラジェクトリの改善と、曲率認識法に典型的なメモリオーバーヘッドを伴わない一般化を実現した。
1) CAMExは, 様々な自然言語処理タスクにおいて, 従来のユークリッド・エキスパート・マージ手法を著しく上回り, 事前学習や微調整によるパフォーマンスの向上, (2) 資源利用を最適化し, 計算コストを削減しつつ高い性能を実現し, 大規模言語モデルの効率的なスケーリングを容易にする動的マージアーキテクチャを導入し, (3) 提案手法の効率を実証するための理論的および実証的な証拠を提供する。
コードは、https://github.com/kpup1710/CAMEx.comで公開されている。
関連論文リスト
- Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Riemannian Geometric-based Meta Learning [8.365106891566725]
「学習への学習」は、最小限のデータでモデルが新しいタスクに迅速に適応できるようにすることを目的としている。
Model-Agnostic Meta-Learning (MAML)のような従来の手法は、複雑な学習力学を捉えるのに苦労することが多い。
シュティーフェル多様体内を最適化することによりリーマン幾何学を統合するシュティーフェル-MAMLを提案する。
論文 参考訳(メタデータ) (2025-03-14T01:34:55Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。