論文の概要: MoExtend: Tuning New Experts for Modality and Task Extension
- arxiv url: http://arxiv.org/abs/2408.03511v1
- Date: Wed, 7 Aug 2024 02:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:05:27.721340
- Title: MoExtend: Tuning New Experts for Modality and Task Extension
- Title(参考訳): MoExtend: モダリティとタスク拡張のための新しいエキスパートのチューニング
- Authors: Shanshan Zhong, Shanghua Gao, Zhongzhan Huang, Wushao Wen, Marinka Zitnik, Pan Zhou,
- Abstract要約: MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
- 参考スコア(独自算出の注目度): 61.29100693866109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in various tasks but are primarily trained on text data, limiting their application scope. Expanding LLM capabilities to include vision-language understanding is vital, yet training them on multimodal data from scratch is challenging and costly. Existing instruction tuning methods, e.g., LLAVA, often connects a pretrained CLIP vision encoder and LLMs via fully fine-tuning LLMs to bridge the modality gap. However, full fine-tuning is plagued by catastrophic forgetting, i.e., forgetting previous knowledge, and high training costs particularly in the era of increasing tasks and modalities. To solve this issue, we introduce MoExtend, an effective framework designed to streamline the modality adaptation and extension of Mixture-of-Experts (MoE) models. MoExtend seamlessly integrates new experts into pre-trained MoE models, endowing them with novel knowledge without the need to tune pretrained models such as MoE and vision encoders. This approach enables rapid adaptation and extension to new modal data or tasks, effectively addressing the challenge of accommodating new modalities within LLMs. Furthermore, MoExtend avoids tuning pretrained models, thus mitigating the risk of catastrophic forgetting. Experimental results demonstrate the efficacy and efficiency of MoExtend in enhancing the multimodal capabilities of LLMs, contributing to advancements in multimodal AI research. Code: https://github.com/zhongshsh/MoExtend.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクに優れるが、主にテキストデータに基づいて訓練され、アプリケーションの範囲が制限される。
視覚言語理解を含むLLM機能の拡張は不可欠だが、それらをスクラッチからマルチモーダルデータでトレーニングすることは困難でコストもかかる。
既存の命令チューニング手法、例えばLLAVAは、トレーニング済みのCLIPビジョンエンコーダとLLMを、完全に微調整されたLLMを介して接続し、モダリティギャップを埋める。
しかし、完全な微調整は破滅的な忘れ、すなわち以前の知識を忘れること、特にタスクやモダリティの増加の時代における高い訓練コストに悩まされている。
そこで本研究では,Mixture-of-Experts(MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークであるMoExtendを紹介する。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、MoEやビジョンエンコーダのようなトレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
このアプローチは、新しいモーダルデータやタスクへの迅速な適応と拡張を可能にし、LLM内に新しいモーダルを収容するという課題に効果的に対処する。
さらに、MoExtendは事前訓練されたモデルのチューニングを避け、破滅的な忘れ込みのリスクを軽減する。
実験により,LLMのマルチモーダル能力向上におけるMoExtendの有効性と有効性を示し,マルチモーダルAI研究の進歩に寄与した。
コード:https://github.com/zhongshsh/MoExtend.com
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - From Static to Dynamic: A Continual Learning Framework for Large
Language Models [41.59643329735528]
本稿では,大規模言語モデル(LLM)のための新しい連続学習フレームワークであるDynaMindについて述べる。
DynaMindはメモリ機構を導入し、新しい知識とモジュラー演算子を同化してモデル推論プロセスを強化する。
ベンチマーク実験は、これらの課題を克服するDynaMindの有効性を実証している。
論文 参考訳(メタデータ) (2023-10-22T10:18:53Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。