論文の概要: Parameter-Efficient Fine-Tuning of LLMs with Mixture of Space Experts
- arxiv url: http://arxiv.org/abs/2602.14490v1
- Date: Mon, 16 Feb 2026 06:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.16822
- Title: Parameter-Efficient Fine-Tuning of LLMs with Mixture of Space Experts
- Title(参考訳): 宇宙専門家の混合によるLDMのパラメータ効率の良い微調整
- Authors: Buze Zhang, Jinkai Tao, Zilang Zeng, Neil He, Ali Maatouk, Menglin Yang, Rex Ying,
- Abstract要約: 複数の幾何学空間を同時に利用して曲率認識表現を学習する統合フレームワークを提案する。
ヘテロジニアスな幾何学的専門家とローランド適応(LoRA)を拡張したMoSLoRAを開発した。
多様なベンチマークによる実験は、MoSLoRAが強いベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 20.82313207866023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable progress, with Parameter-Efficient Fine-Tuning (PEFT) emerging as a key technique for downstream task adaptation. However, existing PEFT methods mainly operate in Euclidean space, fundamentally limiting their capacity to capture complex geometric structures inherent in language data. While alternative geometric spaces, like hyperbolic geometries for hierarchical data and spherical manifolds for circular patterns, offer theoretical advantages, forcing representations into a single manifold type ultimately limits expressiveness, even when curvature parameters are learnable. To address this, we propose Mixture of Space (MoS), a unified framework that leverages multiple geometric spaces simultaneously to learn richer, curvature-aware representations. Building on this scheme, we develop MoSLoRA, which extends Low-Rank Adaptation (LoRA) with heterogeneous geometric experts, enabling models to dynamically select or combine appropriate geometric spaces based on input context. Furthermore, to address the computational overhead of frequent manifold switching, we develop a lightweight routing mechanism. Moreover, we provide empirical insights into how curvature optimization impacts training stability and model performance. Our experiments across diverse benchmarks demonstrate that MoSLoRA consistently outperforms strong baselines, achieving up to 5.6% improvement on MATH500 and 15.9% on MAWPS.
- Abstract(参考訳): 大規模言語モデル (LLM) は、下流タスク適応の鍵となる手法としてパラメータ効率の良いファインチューニング (PEFT) が出現し、目覚ましい進歩を遂げた。
しかし、既存のPEFT法は主にユークリッド空間で運用されており、言語データに固有の複雑な幾何学的構造を捉える能力は基本的に制限されている。
一方、階層データに対する双曲的幾何学的幾何学的幾何学的空間や円パターンに対する球面多様体などは理論的優位性を持ち、曲率パラメータが学習可能であっても、単一の多様体型への表現を最終的に表現性に制限する。
そこで本稿では,複数の幾何学的空間を同時に活用し,よりリッチで曲率に敏感な表現を学習するMixture of Space (MoS)を提案する。
このスキームに基づいて,低ランク適応(LoRA)をヘテロジニアスな幾何学的専門家と拡張し,入力コンテキストに基づいて適切な幾何学的空間を動的に選択または組み合わせることのできるMoSLoRAを開発した。
さらに、頻繁な多様体スイッチングの計算オーバーヘッドに対処するために、軽量なルーティング機構を開発する。
さらに、曲率最適化がトレーニングの安定性とモデル性能に与える影響について実証的な知見を提供する。
様々なベンチマークによる実験により、MoSLoRAは強いベースラインを一貫して上回り、MATH500では最大5.6%、MAWPSでは15.9%向上した。
関連論文リスト
- Learning Geometry: A Framework for Building Adaptive Manifold Models through Metric Optimization [8.201374511929538]
本稿では,従来のパラメータ最適化を超越した機械学習のパラダイムを提案する。
既定位相を持つ多様体上の計量テンソル場を最適化することにより、モデル空間の幾何学的構造を動的に形成する。
この研究は、その幾何学とトポロジーを自律的に進化させることができる完全にダイナミックな「メタ・ラーナー」を構築するための確固たる基礎を築いた。
論文 参考訳(メタデータ) (2025-10-30T01:53:32Z) - Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - HELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts [29.365614317331932]
我々はHypErbolic Large Language ModelsのファミリーであるHELMを紹介する。
HELM-MICEでは,双曲型マルチヘッド潜在注意法を開発した。
両方のモデルに対して、回転位置符号化と RMS 正規化の本質的な双曲的等価性を開発する。
論文 参考訳(メタデータ) (2025-05-30T15:42:42Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Riemannian Geometric-based Meta Learning [8.365106891566725]
「学習への学習」は、最小限のデータでモデルが新しいタスクに迅速に適応できるようにすることを目的としている。
Model-Agnostic Meta-Learning (MAML)のような従来の手法は、複雑な学習力学を捉えるのに苦労することが多い。
シュティーフェル多様体内を最適化することによりリーマン幾何学を統合するシュティーフェル-MAMLを提案する。
論文 参考訳(メタデータ) (2025-03-14T01:34:55Z) - CAMEx: Curvature-aware Merging of Experts [1.5479848902142663]
モデルトレーニングと微調整の間に専門家をマージするための既存の手法はユークリッド幾何学に依存している。
曲率を意識したマージ法は、フィッシャー情報行列を近似するために追加の情報と計算資源を必要とする。
我々は,パラメータ多様体の非ユークリッド曲率を考慮に入れた,自然勾配を組み込んだ新しい専門家統合プロトコルであるCAMExを紹介する。
論文 参考訳(メタデータ) (2025-02-26T04:52:31Z) - RMLR: Extending Multinomial Logistic Regression into General Geometries [64.16104856124029]
我々のフレームワークは、最小限の幾何学的性質しか必要とせず、広い適用性を示す。
SPD MLRの5つのファミリーを5種類のパワー変形測定値に基づいて開発する。
回転行列上では、人気のある双不変計量に基づいてリー MLR を提案する。
論文 参考訳(メタデータ) (2024-09-28T18:38:21Z) - Automatic Parameterization for Aerodynamic Shape Optimization via Deep
Geometric Learning [60.69217130006758]
空力形状最適化のための形状パラメータ化を完全に自動化する2つの深層学習モデルを提案する。
どちらのモデルも、深い幾何学的学習を通じてパラメータ化し、人間の事前知識を学習された幾何学的パターンに埋め込むように最適化されている。
2次元翼の形状最適化実験を行い、2つのモデルに適用可能なシナリオについて論じる。
論文 参考訳(メタデータ) (2023-05-03T13:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。