論文の概要: TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2504.21190v1
- Date: Tue, 29 Apr 2025 21:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 23:19:39.737037
- Title: TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts
- Title(参考訳): TT-LoRA MoE:パラメータ効率の良いファインチューニングとスパースミキサー
- Authors: Pradip Kunwar, Minh N. Vu, Maanak Gupta, Mahmoud Abdelsalam, Manish Bhattarai,
- Abstract要約: TT-LoRA MoEはトレーニングを2つの異なる最適化段階に分解する。
まず、軽量かつテンソル化低ランクアダプタ(TT-LoRAエキスパート)を個別に訓練する。
その後、これらの専門家アダプタは凍結状態のままであり、マルチタスク設定でタスク間干渉を排除し、忘れる。
個別に訓練されたスパースMOEルータは、ベースモデル表現を動的に活用し、推論時に入力ごとに正確に1つの特別なアダプタを選択する。
総合的な実験により、我々のアーキテクチャは低ランクアダプタのメモリ効率を保ち、大きなエキスパートプールにシームレスにスケールし、堅牢なタスクレベルの最適化を実現する。
- 参考スコア(独自算出の注目度): 4.5558042369389105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Tensor-Trained Low-Rank Adaptation Mixture of Experts (TT-LoRA MoE), a novel computational framework integrating Parameter-Efficient Fine-Tuning (PEFT) with sparse MoE routing to address scalability challenges in large model deployments. Unlike traditional MoE approaches, which face substantial computational overhead as expert counts grow, TT-LoRA MoE decomposes training into two distinct, optimized stages. First, we independently train lightweight, tensorized low-rank adapters (TT-LoRA experts), each specialized for specific tasks. Subsequently, these expert adapters remain frozen, eliminating inter-task interference and catastrophic forgetting in multi-task setting. A sparse MoE router, trained separately, dynamically leverages base model representations to select exactly one specialized adapter per input at inference time, automating expert selection without explicit task specification. Comprehensive experiments confirm our architecture retains the memory efficiency of low-rank adapters, seamlessly scales to large expert pools, and achieves robust task-level optimization. This structured decoupling significantly enhances computational efficiency and flexibility: uses only 2% of LoRA, 0.3% of Adapters and 0.03% of AdapterFusion parameters and outperforms AdapterFusion by 4 value in multi-tasking, enabling practical and scalable multi-task inference deployments.
- Abstract(参考訳): 本稿では,パラメータ効率の良いファインチューニング(PEFT)と疎MOEルーティングを組み合わせた新しい計算フレームワークであるTT-LoRA MoE(Tensor-Trained Low-Rank Adaptation Mixture of Experts)を提案する。
専門家数の増加に伴って計算オーバーヘッドが大幅に増加する従来のMoEアプローチとは異なり、TT-LoRA MoEはトレーニングを2つの異なる最適化段階に分解する。
まず、各タスクに特化した軽量・テンソル化ローランクアダプタ(TT-LoRAエキスパート)を個別に訓練する。
その後、これらの専門家アダプタは凍結し続け、マルチタスク環境でのタスク間干渉や破滅的な忘れを排除した。
個別に訓練されたスパースMOEルータは、ベースモデル表現を動的に活用し、推論時に入力ごとに1つの特別なアダプタを正確に選択し、明示的なタスク仕様なしで専門家の選択を自動化する。
総合的な実験により、我々のアーキテクチャは低ランクアダプタのメモリ効率を保ち、大きなエキスパートプールにシームレスにスケールし、堅牢なタスクレベルの最適化を実現する。
わずか2%のLoRA、0.3%のAdapterFusionパラメータと0.03%のAdapterFusionパラメータを使用し、マルチタスクで4値のAdapterFusionを使うことで、実用的でスケーラブルなマルチタスク推論デプロイメントが可能になる。
関連論文リスト
- Rank Also Matters: Hierarchical Configuration for Mixture of Adapter Experts in LLM Fine-Tuning [5.074620301447097]
本稿では,大規模言語モデル(LLM)のための専門家のアロケーションとランク設定のための階層型スキームHILOを提案する。
HILOは、層間のアダプタエキスパートの数とランクを動的に調整し、アダプタの粒度の異なるモデルレイヤの表現複雑性に適合する。
複数のベンチマークタスクの実験では、HILOが既存のメソッドよりも精度が高く、トレーニング可能なパラメータが少ないことが示されている。
論文 参考訳(メタデータ) (2025-02-06T08:58:03Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - 3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。
RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文 参考訳(メタデータ) (2024-08-28T08:45:29Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
本稿では,機械学習におけるマルチタスクトレードオフに対処するパラメータ効率の高い新しい手法PaLoRAを紹介する。
実験の結果、PaLoRAは様々なデータセットで最先端のMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。
COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。
トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。
提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文 参考訳(メタデータ) (2023-12-14T13:00:24Z) - VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense
Scene Understanding [6.816428690763012]
大規模な事前訓練モデルを活用するための標準的なアプローチは、下流タスクのすべてのモデルパラメータを微調整することである。
本稿では,複数のタスクから知識を共有するVMT-Adapterを提案する。
また、ダウンプロジェクションとアッププロジェクションの間で共有パラメータを学習することで、トレーニング可能なパラメータをさらに削減するVMT-Adapter-Liteを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:25:04Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。