論文の概要: CAMEx: Curvature-aware Merging of Experts
- arxiv url: http://arxiv.org/abs/2502.18821v2
- Date: Mon, 03 Mar 2025 16:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.75289
- Title: CAMEx: Curvature-aware Merging of Experts
- Title(参考訳): CAMEx: 専門家の曲線認識によるマージ
- Authors: Dung V. Nguyen, Minh H. Nguyen, Luc Q. Nguyen, Rachel S. Y. Teo, Tan M. Nguyen, Linh Duy Tran,
- Abstract要約: モデルトレーニングと微調整の間に専門家をマージするための既存の手法はユークリッド幾何学に依存している。
曲率を意識したマージ法は、フィッシャー情報行列を近似するために追加の情報と計算資源を必要とする。
我々は,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を組み込んだ新しい専門家統合プロトコルであるCAMExを紹介する。
- 参考スコア(独自算出の注目度): 1.5479848902142663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for merging experts during model training and fine-tuning predominantly rely on Euclidean geometry, which assumes a flat parameter space. This assumption can limit the model's generalization ability, especially during the pre-training phase, where the parameter manifold might exhibit more complex curvature. Curvature-aware merging methods typically require additional information and computational resources to approximate the Fisher Information Matrix, adding memory overhead. In this paper, we introduce CAMEx (Curvature-Aware Merging of Experts), a novel expert merging protocol that incorporates natural gradients to account for the non-Euclidean curvature of the parameter manifold. By leveraging natural gradients, CAMEx adapts more effectively to the structure of the parameter space, improving alignment between model updates and the manifold's geometry. This approach enhances both pre-training and fine-tuning, resulting in better optimization trajectories and improved generalization without the substantial memory overhead typically associated with curvature-aware methods. Our contributions are threefold: (1) CAMEx significantly outperforms traditional Euclidean-based expert merging techniques across various natural language processing tasks, leading to enhanced performance during pre-training and fine-tuning; (2) we introduce a dynamic merging architecture that optimizes resource utilization, achieving high performance while reducing computational costs, facilitating efficient scaling of large language models; and (3) we provide both theoretical and empirical evidence to demonstrate the efficiency of our proposed method. The code is publicly available at: https://github.com/kpup1710/CAMEx.
- Abstract(参考訳): モデルトレーニングと微調整の間に専門家をマージするための既存の方法は、主に平坦なパラメータ空間を仮定するユークリッド幾何学に依存している。
この仮定は、特にパラメータ多様体がより複雑な曲率を示す事前学習フェーズにおいて、モデルの一般化能力を制限することができる。
曲率を意識したマージ法は、通常、Fisher Information Matrixを近似するために追加の情報と計算資源を必要とし、メモリオーバーヘッドを増大させる。
本稿では,CAMEx(Curvature-Aware Merging of Experts)という,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を取り入れた新しい専門家統合プロトコルを紹介する。
自然な勾配を利用することにより、CAMEx はパラメータ空間の構造により効果的に対応し、モデルの更新と多様体の幾何学との整合性を改善する。
このアプローチは事前学習と微調整の両方を強化し、最適化トラジェクトリの改善と、曲率認識法に典型的なメモリオーバーヘッドを伴わない一般化を実現した。
1) CAMExは, 様々な自然言語処理タスクにおいて, 従来のユークリッド・エキスパート・マージ手法を著しく上回り, 事前学習や微調整によるパフォーマンスの向上, (2) 資源利用を最適化し, 計算コストを削減しつつ高い性能を実現し, 大規模言語モデルの効率的なスケーリングを容易にする動的マージアーキテクチャを導入し, (3) 提案手法の効率を実証するための理論的および実証的な証拠を提供する。
コードは、https://github.com/kpup1710/CAMEx.comで公開されている。
関連論文リスト
- Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - Curve-Aware Gaussian Splatting for 3D Parametric Curve Reconstruction [14.628742412460346]
本稿では,多視点エッジマップから直接3次元パラメトリック曲線を再構成するためのエンドツーエンドフレームワークを提案する。
パラメトリック曲線とエッジ指向ガウス成分の双方向結合機構を提案する。
提案手法は,既存の手法に比べて高い効率と優れた性能を達成し,トレーニング中のパラメータ数を著しく削減する。
論文 参考訳(メタデータ) (2025-06-26T15:48:08Z) - Curvature Enhanced Data Augmentation for Regression [4.910937238451485]
回帰タスクに対する曲率強化マニフォールドサンプリング(CEMS)手法を提案する。
CEMSは、ディストリビューションとアウト・オブ・ディストリビューションの両方のシナリオで優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-07T16:18:37Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Riemannian Geometric-based Meta Learning [8.365106891566725]
「学習への学習」は、最小限のデータでモデルが新しいタスクに迅速に適応できるようにすることを目的としている。
Model-Agnostic Meta-Learning (MAML)のような従来の手法は、複雑な学習力学を捉えるのに苦労することが多い。
シュティーフェル多様体内を最適化することによりリーマン幾何学を統合するシュティーフェル-MAMLを提案する。
論文 参考訳(メタデータ) (2025-03-14T01:34:55Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。