論文の概要: CAMEx: Curvature-aware Merging of Experts
- arxiv url: http://arxiv.org/abs/2502.18821v1
- Date: Wed, 26 Feb 2025 04:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:04.789964
- Title: CAMEx: Curvature-aware Merging of Experts
- Title(参考訳): CAMEx: 専門家の曲線認識によるマージ
- Authors: Dung V. Nguyen, Minh H. Nguyen, Luc Q. Nguyen, Rachel S. Y. Teo, Tan M. Nguyen, Linh Duy Tran,
- Abstract要約: モデルトレーニングと微調整の間に専門家をマージするための既存の手法はユークリッド幾何学に依存している。
我々は,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を組み込んだ新しい専門家統合プロトコルであるCAMExを紹介する。
- 参考スコア(独自算出の注目度): 1.5479848902142663
- License:
- Abstract: Existing methods for merging experts during model training and fine-tuning predominantly rely on Euclidean geometry, which assumes a flat parameter space. This assumption can limit the model's generalization ability, especially during the pre-training phase, where the parameter manifold might exhibit more complex curvature. Curvature-aware merging methods typically require additional information and computational resources to approximate the Fisher Information Matrix, adding memory overhead. In this paper, we introduce CAMEx (\textbf{C}urvature-\textbf{A}ware \textbf{M}erging of \textbf{Ex}perts), a novel expert merging protocol that incorporates natural gradients to account for the non-Euclidean curvature of the parameter manifold. By leveraging natural gradients, CAMEx adapts more effectively to the structure of the parameter space, improving alignment between model updates and the manifold's geometry. This approach enhances both pre-training and fine-tuning, resulting in better optimization trajectories and improved generalization without the substantial memory overhead typically associated with curvature-aware methods. Our contributions are threefold: (1) CAMEx significantly outperforms traditional Euclidean-based expert merging techniques across various natural language processing tasks, leading to enhanced performance during pre-training and fine-tuning; (2) we introduce a dynamic merging architecture that optimizes resource utilization, achieving high performance while reducing computational costs, facilitating efficient scaling of large language models; and (3) we provide both theoretical and empirical evidence to demonstrate the efficiency of our proposed method.
- Abstract(参考訳): モデルトレーニングと微調整の間に専門家をマージするための既存の方法は、主に平坦なパラメータ空間を仮定するユークリッド幾何学に依存している。
この仮定は、特にパラメータ多様体がより複雑な曲率を示す事前学習フェーズにおいて、モデルの一般化能力を制限することができる。
曲率を意識したマージ法は、通常、Fisher Information Matrixを近似するために追加の情報と計算資源を必要とし、メモリオーバーヘッドを増大させる。
本稿では、パラメータ多様体の非ユークリッド曲率を考慮に入れた自然勾配を組み込んだ新しい専門家統合プロトコルであるCAMEx(\textbf{C}urvature-\textbf{A}ware \textbf{M}erging of \textbf{Ex}perts)を紹介する。
自然な勾配を利用することにより、CAMEx はパラメータ空間の構造により効果的に対応し、モデルの更新と多様体の幾何学との整合性を改善する。
このアプローチは事前学習と微調整の両方を強化し、最適化トラジェクトリの改善と、曲率認識法に典型的なメモリオーバーヘッドを伴わない一般化を実現した。
1) CAMExは, 様々な自然言語処理タスクにおいて, 従来のユークリッド・エキスパート・マージ手法を著しく上回り, 事前学習や微調整によるパフォーマンスの向上, (2) 資源利用を最適化し, 計算コストを削減しつつ高い性能を実現し, 大規模言語モデルの効率的なスケーリングを容易にする動的マージアーキテクチャを導入し, (3) 提案手法の効率を実証するための理論的および実証的な証拠を提供する。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Flexible Isosurface Extraction for Gradient-Based Mesh Optimization [65.76362454554754]
本研究では、勾配に基づくメッシュ最適化について考察し、スカラー場の等曲面として表現することで、3次元表面メッシュを反復的に最適化する。
我々は、幾何学的、視覚的、あるいは物理的目的に対して未知のメッシュを最適化するために特別に設計された、異面表現であるFlexiCubesを紹介する。
論文 参考訳(メタデータ) (2023-08-10T06:40:19Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Flow Matching on General Geometries [43.252817099263744]
本稿では,多様体上の連続正規化フローをトレーニングするための,単純かつ強力なフレームワークを提案する。
単純な測地ではシミュレーションが不要であり、発散を必要としないことを示し、その対象ベクトル場を閉形式で計算する。
本手法は,多くの実世界の非ユークリッドデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T18:21:24Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。