論文の概要: MoExtend: Tuning New Experts for Modality and Task Extension
- arxiv url: http://arxiv.org/abs/2408.03511v1
- Date: Wed, 7 Aug 2024 02:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:05:27.721340
- Title: MoExtend: Tuning New Experts for Modality and Task Extension
- Title(参考訳): MoExtend: モダリティとタスク拡張のための新しいエキスパートのチューニング
- Authors: Shanshan Zhong, Shanghua Gao, Zhongzhan Huang, Wushao Wen, Marinka Zitnik, Pan Zhou,
- Abstract要約: MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
- 参考スコア(独自算出の注目度): 61.29100693866109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in various tasks but are primarily trained on text data, limiting their application scope. Expanding LLM capabilities to include vision-language understanding is vital, yet training them on multimodal data from scratch is challenging and costly. Existing instruction tuning methods, e.g., LLAVA, often connects a pretrained CLIP vision encoder and LLMs via fully fine-tuning LLMs to bridge the modality gap. However, full fine-tuning is plagued by catastrophic forgetting, i.e., forgetting previous knowledge, and high training costs particularly in the era of increasing tasks and modalities. To solve this issue, we introduce MoExtend, an effective framework designed to streamline the modality adaptation and extension of Mixture-of-Experts (MoE) models. MoExtend seamlessly integrates new experts into pre-trained MoE models, endowing them with novel knowledge without the need to tune pretrained models such as MoE and vision encoders. This approach enables rapid adaptation and extension to new modal data or tasks, effectively addressing the challenge of accommodating new modalities within LLMs. Furthermore, MoExtend avoids tuning pretrained models, thus mitigating the risk of catastrophic forgetting. Experimental results demonstrate the efficacy and efficiency of MoExtend in enhancing the multimodal capabilities of LLMs, contributing to advancements in multimodal AI research. Code: https://github.com/zhongshsh/MoExtend.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクに優れるが、主にテキストデータに基づいて訓練され、アプリケーションの範囲が制限される。
視覚言語理解を含むLLM機能の拡張は不可欠だが、それらをスクラッチからマルチモーダルデータでトレーニングすることは困難でコストもかかる。
既存の命令チューニング手法、例えばLLAVAは、トレーニング済みのCLIPビジョンエンコーダとLLMを、完全に微調整されたLLMを介して接続し、モダリティギャップを埋める。
しかし、完全な微調整は破滅的な忘れ、すなわち以前の知識を忘れること、特にタスクやモダリティの増加の時代における高い訓練コストに悩まされている。
そこで本研究では,Mixture-of-Experts(MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークであるMoExtendを紹介する。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、MoEやビジョンエンコーダのようなトレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
このアプローチは、新しいモーダルデータやタスクへの迅速な適応と拡張を可能にし、LLM内に新しいモーダルを収容するという課題に効果的に対処する。
さらに、MoExtendは事前訓練されたモデルのチューニングを避け、破滅的な忘れ込みのリスクを軽減する。
実験により,LLMのマルチモーダル能力向上におけるMoExtendの有効性と有効性を示し,マルチモーダルAI研究の進歩に寄与した。
コード:https://github.com/zhongshsh/MoExtend.com
関連論文リスト
- LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [85.76186554492543]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は,MLLMを用いたマルチモーダル学習に関する総合的な研究と実験を行うための,Octaviusと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - From Static to Dynamic: A Continual Learning Framework for Large
Language Models [41.59643329735528]
本稿では,大規模言語モデル(LLM)のための新しい連続学習フレームワークであるDynaMindについて述べる。
DynaMindはメモリ機構を導入し、新しい知識とモジュラー演算子を同化してモデル推論プロセスを強化する。
ベンチマーク実験は、これらの課題を克服するDynaMindの有効性を実証している。
論文 参考訳(メタデータ) (2023-10-22T10:18:53Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。