論文の概要: AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
- arxiv url: http://arxiv.org/abs/2405.00361v2
- Date: Sat, 10 Aug 2024 05:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:07:09.538817
- Title: AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
- Title(参考訳): AdaMole: 低ランク適応エキスパートの適応混合を用いた微調整大言語モデル
- Authors: Zefang Liu, Jiahua Luo,
- Abstract要約: 本稿では,Lank Adaptation ExpertsのAdaptive Mixtureを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは専用のしきい値ネットワークを使用してアクティベーション閾値を動的に調整し、異なるタスクの複雑さに応じて適応的に応答する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AdaMoLE, a novel method for fine-tuning large language models (LLMs) through an Adaptive Mixture of Low-Rank Adaptation (LoRA) Experts. Moving beyond conventional methods that employ a static top-k strategy for activating experts, AdaMoLE dynamically adjusts the activation threshold using a dedicated threshold network, adaptively responding to the varying complexities of different tasks. By replacing a single LoRA in a layer with multiple LoRA experts and integrating a gating function with the threshold mechanism, AdaMoLE effectively selects and activates the most appropriate experts based on the input context. Our extensive evaluations across a variety of commonsense reasoning and natural language processing tasks show that AdaMoLE exceeds baseline performance. This enhancement highlights the advantages of AdaMoLE's adaptive selection of LoRA experts, improving model effectiveness without a corresponding increase in the expert count. The experimental validation not only confirms AdaMoLE as a robust approach for enhancing LLMs but also suggests valuable directions for future research in adaptive expert selection mechanisms, potentially broadening the scope for optimizing model performance across diverse language processing tasks.
- Abstract(参考訳): 本稿では,Low-Rank Adaptation (LoRA) Expertsを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは、専門家を活性化するための静的トップk戦略を採用する従来の方法を超えて、専用のしきい値ネットワークを使用してアクティベーションしきい値を動的に調整し、さまざまなタスクの複雑さに適応的に応答する。
単一のLoRAを複数のLoRA専門家に置き換え、しきい値メカニズムにゲーティング関数を統合することで、AdaMoLEは入力コンテキストに基づいて、最も適切な専門家を効果的に選択し、活性化する。
様々なコモンセンス推論や自然言語処理タスクに対する広範な評価は,AdaMoLEがベースライン性能を上回ることを示す。
この強化は、AdaMoLEがLoRAの専門家を適応的に選別することの利点を強調し、専門家数の増加を伴わないモデルの有効性を向上させる。
実験による検証により、AdaMoLEはLLMの強化のための堅牢なアプローチであるだけでなく、適応的な専門家選択機構の研究にも有用であることが示唆され、多種多様な言語処理タスクにおけるモデル性能の最適化の範囲が拡大される可能性がある。
関連論文リスト
- MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - PILL: Plug Into LLM with Adapter Expert and Attention Gate [11.956931222769128]
我々は、アダプタの専門家とアテンションゲートを備えたPILL: Plug Into LLMという新しいアーキテクチャを導入する。
まず、Mixture-of-Modality-Adapter-Expertを使って異なるモダリティを独立に扱う。
第二に、モダリティ・アテンション・ゲーティングを導入することにより、全体表現へのモダリティトークンの寄与を適応的に制御できる。
論文 参考訳(メタデータ) (2023-11-03T09:31:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。