論文の概要: Two Is Better Than One: Rotations Scale LoRAs
- arxiv url: http://arxiv.org/abs/2505.23184v1
- Date: Thu, 29 May 2025 07:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.736018
- Title: Two Is Better Than One: Rotations Scale LoRAs
- Title(参考訳): 2つは1より良い:ローテーションスケールのLORA
- Authors: Hongcan Guo, Guoshun Nan, Yuan Yang, Diyang Zhang, Haotian Li, Zhican Chen, Qinchuan Zhou, Yuhan Ran, Xinye Cao, Sicong Leng, Xiaofeng Tao, Xudong Jiang,
- Abstract要約: Low-Rank Adaptation (LoRA)ベースのMixture-of-Experts (MoE)は、大規模言語モデル(LLM)が多様なタスクに効率的に適応できるようにする。
入力を最良の専門家にルーティングする従来のゲーティングメカニズムは、LLMのスケーラビリティを根本的に阻害する可能性がある。
本稿では,ロラス表現の回転操作を導入し,幾何学的に着想を得た新しいゲーティング手法であるRadarGateを提案する。
- 参考スコア(独自算出の注目度): 26.617019830475172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling Low-Rank Adaptation (LoRA)-based Mixture-of-Experts (MoE) facilitates large language models (LLMs) to efficiently adapt to diverse tasks. However, traditional gating mechanisms that route inputs to the best experts may fundamentally hinder LLMs' scalability, leading to poor generalization and underfitting issues. We identify that the root cause lies in the restricted expressiveness of existing weighted-sum mechanisms, both within and outside the convex cone of LoRA representations. This motivates us to propose RadarGate, a novel geometrically inspired gating method that introduces rotational operations of LoRAs representations to boost the expressiveness and facilitate richer feature interactions among multiple LoRAs for scalable LLMs. Specifically, we first fuse each LoRA representation to other LoRAs using a learnable component and then feed the output to a rotation matrix. This matrix involves learnable parameters that define the relative angular relationship between LoRA representations. Such a simple yet effective mechanism provides an extra degree of freedom, facilitating the learning of cross-LoRA synergies and properly tracking the challenging poor generalization and underfitting issues as the number of LoRA grows. Extensive experiments on 6 public benchmarks across 21 tasks show the effectiveness of our RadarGate for scaling LoRAs. We also provide valuable insights, revealing that the rotations to each pair of representations are contrastive, encouraging closer alignment of semantically similar representations during geometrical transformation while pushing distance ones further apart. We will release our code to the community.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)ベースのMixture-of-Experts (MoE)は、大規模言語モデル(LLM)が多様なタスクに効率的に適応できるようにする。
しかし、最も優れた専門家に入力をルーティングする伝統的なゲーティング機構は、LLMのスケーラビリティを阻害し、一般化が不十分で不適合な問題を引き起こす可能性がある。
根本原因は,LoRA表現の凸錐内および外における既存の重み付きサム機構の限定的表現性にある。
これは、ロラ表現の回転操作を導入し、その表現性を高め、スケーラブルなLLMのために複数のロラ間でのよりリッチな特徴相互作用を促進する、幾何学的に着想を得た新しいゲーティング手法である。
具体的には、まず学習可能なコンポーネントを使用して各LoRA表現を他のLoRAに融合し、次にその出力を回転行列に供給する。
この行列は、LoRA表現間の相対角関係を定義する学習可能なパラメータを含む。
このような単純で効果的なメカニズムは、クロスロラのシナジーの学習を容易にし、ロラの数が増加するにつれて、難解な一般化と不適合の問題を適切に追跡する、追加的な自由度を提供する。
21タスクにわたる6つの公開ベンチマークに関する大規模な実験は、LoRAをスケールするためのRadarGateの有効性を示しています。
また、各対の表現への回転が対照的であることを明らかにするとともに、幾何学的変換において意味論的に類似した表現のより密接なアライメントを奨励し、距離をさらに引き離す。
私たちはコードをコミュニティに公開します。
関連論文リスト
- BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - Cached Multi-Lora Composition for Multi-Concept Image Generation [10.433033595844442]
Low-Rank Adaptation (LoRA) はテキスト・ツー・イメージ・モデルにおいて広く採用されている手法である。
現在のアプローチでは、マルチコンセプト画像生成のためにこれらのLoRAを構成する際に大きな課題に直面している。
我々は,複数のLoRAを効率的に統合するために設計された,新しいトレーニングフリーフレームワークであるCached Multi-LoRA(CMLoRA)を紹介した。
論文 参考訳(メタデータ) (2025-02-07T13:41:51Z) - RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts [37.43961020113692]
低ランク適応 (LoRA) は、大規模基盤モデルを微調整するための強力な手法として登場した。
本稿では,LoRAモデルとMixture of Expertsモデルとの関連性を検討することによって,ロラの理論解析を行う。
論文 参考訳(メタデータ) (2025-02-05T10:03:09Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.98941571078398]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering [35.54018186415654]
Low-Rank Adaptation (LoRA) は、様々なドメインに最適化された大規模言語モデル(LLM)の一般的なテクニックとして登場した。
LoRA合成の既存の方法は、主に追加の訓練を必要とするタスク固有の適応に焦点を当てている。
本稿では,LoRAにおける各ランクに対応するパラメータが独立単位として機能する最小意味単位(MSU)の概念を紹介する。
我々は、異なるLoRAから$k$のクラスタにMSUをグループ化することで、ランクワイズパラメータクラスタリングを行うLoRA-LEGOフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T15:08:41Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。