論文の概要: AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
- arxiv url: http://arxiv.org/abs/2405.00361v1
- Date: Wed, 1 May 2024 07:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:17:22.305271
- Title: AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
- Title(参考訳): AdaMole: 低ランク適応エキスパートの適応混合を用いた微調整大言語モデル
- Authors: Zefang Liu, Jiahua Luo,
- Abstract要約: 本稿では,Lank Adaptation ExpertsのAdaptive Mixtureを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは専用のしきい値ネットワークを使用してアクティベーション閾値を動的に調整し、異なるタスクの複雑さに応じて適応的に応答する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AdaMoLE, a novel method for fine-tuning large language models (LLMs) through an Adaptive Mixture of Low-Rank Adaptation (LoRA) Experts. Moving beyond conventional methods that employ a static top-k strategy for activating experts, AdaMoLE dynamically adjusts the activation threshold using a dedicated threshold network, adaptively responding to the varying complexities of different tasks. By replacing a single LoRA in a layer with multiple LoRA experts and integrating a gating function with the threshold mechanism, AdaMoLE effectively selects and activates the most appropriate experts based on the input context. Our extensive evaluations across a variety of commonsense reasoning and natural language processing tasks show that AdaMoLE exceeds baseline performance. This enhancement highlights the advantages of AdaMoLE's adaptive selection of LoRA experts, improving model effectiveness without a corresponding increase in the expert count. The experimental validation not only confirms AdaMoLE as a robust approach for enhancing LLMs but also suggests valuable directions for future research in adaptive expert selection mechanisms, potentially broadening the scope for optimizing model performance across diverse language processing tasks.
- Abstract(参考訳): 本稿では,Low-Rank Adaptation (LoRA) Expertsを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは、専門家を活性化するための静的トップk戦略を採用する従来の方法を超えて、専用のしきい値ネットワークを使用してアクティベーションしきい値を動的に調整し、さまざまなタスクの複雑さに適応的に応答する。
単一のLoRAを複数のLoRA専門家に置き換え、しきい値メカニズムにゲーティング関数を統合することで、AdaMoLEは入力コンテキストに基づいて、最も適切な専門家を効果的に選択し、活性化する。
様々なコモンセンス推論や自然言語処理タスクに対する広範な評価は,AdaMoLEがベースライン性能を上回ることを示す。
この強化は、AdaMoLEがLoRAの専門家を適応的に選別することの利点を強調し、専門家数の増加を伴わないモデルの有効性を向上させる。
実験による検証により、AdaMoLEはLLMの強化のための堅牢なアプローチであるだけでなく、適応的な専門家選択機構の研究にも有用であることが示唆され、多種多様な言語処理タスクにおけるモデル性能の最適化の範囲が拡大される可能性がある。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ATFLRec: A Multimodal Recommender System with Audio-Text Fusion and Low-Rank Adaptation via Instruction-Tuned Large Language Model [0.0]
本研究では,大規模言語モデル(LLM)へのマルチモーダルデータテキストと音声の統合について検討する。
従来のテキストやオーディオレコメンデータは、コールドスタート問題のような制限に直面する。
Low-Rank Adaptation (LoRA)を導入し、性能を損なうことなく効率を向上させる。
論文 参考訳(メタデータ) (2024-09-13T05:33:09Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。