論文の概要: CAMEx: Curvature-aware Merging of Experts
- arxiv url: http://arxiv.org/abs/2502.18821v2
- Date: Mon, 03 Mar 2025 16:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.75289
- Title: CAMEx: Curvature-aware Merging of Experts
- Title(参考訳): CAMEx: 専門家の曲線認識によるマージ
- Authors: Dung V. Nguyen, Minh H. Nguyen, Luc Q. Nguyen, Rachel S. Y. Teo, Tan M. Nguyen, Linh Duy Tran,
- Abstract要約: モデルトレーニングと微調整の間に専門家をマージするための既存の手法はユークリッド幾何学に依存している。
曲率を意識したマージ法は、フィッシャー情報行列を近似するために追加の情報と計算資源を必要とする。
我々は,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を組み込んだ新しい専門家統合プロトコルであるCAMExを紹介する。
- 参考スコア(独自算出の注目度): 1.5479848902142663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for merging experts during model training and fine-tuning predominantly rely on Euclidean geometry, which assumes a flat parameter space. This assumption can limit the model's generalization ability, especially during the pre-training phase, where the parameter manifold might exhibit more complex curvature. Curvature-aware merging methods typically require additional information and computational resources to approximate the Fisher Information Matrix, adding memory overhead. In this paper, we introduce CAMEx (Curvature-Aware Merging of Experts), a novel expert merging protocol that incorporates natural gradients to account for the non-Euclidean curvature of the parameter manifold. By leveraging natural gradients, CAMEx adapts more effectively to the structure of the parameter space, improving alignment between model updates and the manifold's geometry. This approach enhances both pre-training and fine-tuning, resulting in better optimization trajectories and improved generalization without the substantial memory overhead typically associated with curvature-aware methods. Our contributions are threefold: (1) CAMEx significantly outperforms traditional Euclidean-based expert merging techniques across various natural language processing tasks, leading to enhanced performance during pre-training and fine-tuning; (2) we introduce a dynamic merging architecture that optimizes resource utilization, achieving high performance while reducing computational costs, facilitating efficient scaling of large language models; and (3) we provide both theoretical and empirical evidence to demonstrate the efficiency of our proposed method. The code is publicly available at: https://github.com/kpup1710/CAMEx.
- Abstract(参考訳): モデルトレーニングと微調整の間に専門家をマージするための既存の方法は、主に平坦なパラメータ空間を仮定するユークリッド幾何学に依存している。
この仮定は、特にパラメータ多様体がより複雑な曲率を示す事前学習フェーズにおいて、モデルの一般化能力を制限することができる。
曲率を意識したマージ法は、通常、Fisher Information Matrixを近似するために追加の情報と計算資源を必要とし、メモリオーバーヘッドを増大させる。
本稿では,CAMEx(Curvature-Aware Merging of Experts)という,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を取り入れた新しい専門家統合プロトコルを紹介する。
自然な勾配を利用することにより、CAMEx はパラメータ空間の構造により効果的に対応し、モデルの更新と多様体の幾何学との整合性を改善する。
このアプローチは事前学習と微調整の両方を強化し、最適化トラジェクトリの改善と、曲率認識法に典型的なメモリオーバーヘッドを伴わない一般化を実現した。
1) CAMExは, 様々な自然言語処理タスクにおいて, 従来のユークリッド・エキスパート・マージ手法を著しく上回り, 事前学習や微調整によるパフォーマンスの向上, (2) 資源利用を最適化し, 計算コストを削減しつつ高い性能を実現し, 大規模言語モデルの効率的なスケーリングを容易にする動的マージアーキテクチャを導入し, (3) 提案手法の効率を実証するための理論的および実証的な証拠を提供する。
コードは、https://github.com/kpup1710/CAMEx.comで公開されている。
関連論文リスト
- Parameter-Efficient Fine-Tuning of LLMs with Mixture of Space Experts [20.82313207866023]
複数の幾何学空間を同時に利用して曲率認識表現を学習する統合フレームワークを提案する。
ヘテロジニアスな幾何学的専門家とローランド適応(LoRA)を拡張したMoSLoRAを開発した。
多様なベンチマークによる実験は、MoSLoRAが強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-16T06:07:32Z) - Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文 参考訳(メタデータ) (2026-02-03T08:15:57Z) - Learning Geometry: A Framework for Building Adaptive Manifold Models through Metric Optimization [8.201374511929538]
本稿では,従来のパラメータ最適化を超越した機械学習のパラダイムを提案する。
既定位相を持つ多様体上の計量テンソル場を最適化することにより、モデル空間の幾何学的構造を動的に形成する。
この研究は、その幾何学とトポロジーを自律的に進化させることができる完全にダイナミックな「メタ・ラーナー」を構築するための確固たる基礎を築いた。
論文 参考訳(メタデータ) (2025-10-30T01:53:32Z) - Preconditioned Norms: A Unified Framework for Steepest Descent, Quasi-Newton and Adaptive Methods [50.070182958880146]
本稿では,事前条件付き行列ノルムの新たな概念を通じて,降下法,準ニュートン法,適応法を一般化する統一的枠組みを提案する。
この枠組みでは、行列パラメータ化設定におけるアフィンとスケール不変性の最初の体系的処理を提供する。
我々は、Muonのスペクトル幾何学とAdamスタイルのプレコンディショニングを組み合わせた、$ttMuAdam$と$texttMuAdam-SANIA$という2つの新しい方法を紹介した。
論文 参考訳(メタデータ) (2025-10-12T19:39:41Z) - MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper [75.6582687942241]
本稿では,Mixture of Expert Prompt Tuning (MEPT) を効果的かつ効率的な多様体マッピングフレームワークとして提案する。
MEPTは複数のプロンプト専門家を統合し、多様な非定常データ分布を適応的に学習する。
経験的評価により、MEPTはSuperGLUE上でいくつかの最先端パラメータの効率的なベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-08-31T21:19:25Z) - L-SR1: Learned Symmetric-Rank-One Preconditioning [5.421390145168128]
エンドツーエンドのディープラーニングは目覚ましい結果を得たが、大きなラベル付きデータセットに依存しているため、依然として制限されている。
対照的に、古典最適化法はデータ効率が高く軽量であるが、しばしば収束が遅い。
そこで本研究では,古典的シンメトリー・ランクワンアルゴリズムを強化するために,トレーニング可能なプレコンディショニングユニットを導入した新しい2次ベクトルを提案する。
論文 参考訳(メタデータ) (2025-08-17T07:37:29Z) - Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - Curve-Aware Gaussian Splatting for 3D Parametric Curve Reconstruction [14.628742412460346]
本稿では,多視点エッジマップから直接3次元パラメトリック曲線を再構成するためのエンドツーエンドフレームワークを提案する。
パラメトリック曲線とエッジ指向ガウス成分の双方向結合機構を提案する。
提案手法は,既存の手法に比べて高い効率と優れた性能を達成し,トレーニング中のパラメータ数を著しく削減する。
論文 参考訳(メタデータ) (2025-06-26T15:48:08Z) - Curvature Enhanced Data Augmentation for Regression [4.910937238451485]
回帰タスクに対する曲率強化マニフォールドサンプリング(CEMS)手法を提案する。
CEMSは、ディストリビューションとアウト・オブ・ディストリビューションの両方のシナリオで優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-07T16:18:37Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Riemannian Geometric-based Meta Learning [8.365106891566725]
「学習への学習」は、最小限のデータでモデルが新しいタスクに迅速に適応できるようにすることを目的としている。
Model-Agnostic Meta-Learning (MAML)のような従来の手法は、複雑な学習力学を捉えるのに苦労することが多い。
シュティーフェル多様体内を最適化することによりリーマン幾何学を統合するシュティーフェル-MAMLを提案する。
論文 参考訳(メタデータ) (2025-03-14T01:34:55Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。