論文の概要: MoRAL: MoE Augmented LoRA for LLMs' Lifelong Learning
- arxiv url: http://arxiv.org/abs/2402.11260v1
- Date: Sat, 17 Feb 2024 12:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:26:29.318979
- Title: MoRAL: MoE Augmented LoRA for LLMs' Lifelong Learning
- Title(参考訳): Moral: LLMの生涯学習のためのMoE Augmented LoRA
- Authors: Shu Yang, Muhammad Asif Ali, Cheng-Long Wang, Lijie Hu, and Di Wang
- Abstract要約: そこで本研究では,MoRAL,すなわちMixture-of-Expertsによる生涯学習のための低ランク適応を提案する。
モラルは、LLMの効果的な生涯学習のために、MoEのマルチタスク能力とLoRAの微調整能力を組み合わせる。
LLM(5L-bench)の生涯学習(Life Long Learning of LLM)という新しい評価ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 19.962200636074826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models (LLMs) to new domains/tasks and enabling them
to be efficient lifelong learners is a pivotal challenge. In this paper, we
propose MoRAL, i.e., Mixture-of-Experts augmented Low-Rank Adaptation for
Lifelong Learning. MoRAL combines the multi-tasking abilities of MoE with the
fine-tuning abilities of LoRA for effective life-long learning of LLMs. In
contrast to the conventional approaches that use factual triplets as inputs
MoRAL relies on simple question-answer pairs, which is a more practical and
effective strategy for robust and efficient learning. Owing to new data
settings, we introduce a new evaluation benchmark namely: Life Long Learning of
LLM (5L-bench) encompassing a newly curated dataset of question-answer pairs,
and a set of evaluation metrics for rigorous evaluation of MoRAL in open-book
and closed-book settings. Experimental evaluation shows (i) LLMs learn fast in
open-book settings with up to 30.15% improvement in "RA" for Phi-2-2.7B
compared to closed-book (for models fine-tuned with MoRAL); (ii) MoRAL shows
higher performance improvement for models with a greater number of parameters;
(iii) MoRAL is robust to catastrophic forgetting offering better knowledge
retention compared to baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)を新しいドメイン/タスクに適用し、効率的な生涯学習を可能にすることは、重要な課題である。
本稿では,MoRAL,すなわちMixture-of-Expertsの低ランク適応を生涯学習に適用する手法を提案する。
モラルは、LLMの効果的な生涯学習のために、MoEのマルチタスク能力とLoRAの微調整能力を組み合わせる。
事実三重項を入力として使用する従来のアプローチとは対照的に、Moralは単純な質問応答ペアに依存しており、堅牢で効率的な学習のためのより実践的で効果的な戦略である。
新しいデータ設定により、新しいデータセットを含むllm(5l-bench)の生涯学習と、オープンブックおよびクローズドブック設定におけるモラルの厳密な評価のための一連の評価指標を新たに導入する。
実験による評価
i) LLMは、クローズドブックに比べてPhi-2.7Bの「RA」を最大30.15%改善したオープンブック設定で速く学習する(MoRALで微調整されたモデルの場合)。
(ii)より多数のパラメータを持つモデルにおいて,MoRALはより高い性能向上を示す。
(iii)モラルは、ベースラインよりも優れた知識保持を提供する破滅的な忘れ方に対して頑健である。
関連論文リスト
- Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [29.234931173107825]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。