論文の概要: Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.12048v1
- Date: Mon, 19 Feb 2024 11:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:51:06.407829
- Title: Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models
- Title(参考訳): Model Tailor: マルチモーダル大規模言語モデルにおける破滅的予測の緩和
- Authors: Didi Zhu, Zhongyi Sun, Zexi Li, Tao Shen, Ke Yan, Shouhong Ding, Kun
Kuang, Chao Wu
- Abstract要約: マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
- 参考スコア(独自算出の注目度): 46.92994945808424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic forgetting emerges as a critical challenge when fine-tuning
multi-modal large language models (MLLMs), where improving performance on
unseen tasks often leads to a significant performance drop on the original
tasks. This paper presents a comprehensive analysis of catastrophic forgetting
in MLLMs and introduces a post-training adjustment method called Model Tailor.
Our method primarily preserves the pre-trained parameters while replacing a
small number ($\leq$ 10\%) of fine-tuned parameters, maintaining $\sim$ 99\%
effectiveness on original tasks versus pre-training, and achieving $\sim$ 97\%
on new tasks compared to standard fine-tuning. Specifically, we derive a sparse
mask to identify the "model patch", based on a fusion strategy that integrates
salience and sensitivity analysis. Subsequently, a compensation mechanism is
introduced to "decorate the patch", enhancing the model's performance on both
target and original tasks. Additionally, our method is adaptable to multi-task
scenarios. Through extensive experiments on InstructBLIP and LLaVA-1.5 in both
image captioning and visual question answering tasks, our approach demonstrates
significant task adaptability while preserving inherent pre-trained
capabilities.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)を微調整することで、目に見えないタスクのパフォーマンスが向上し、元のタスクのパフォーマンスが大幅に低下する。
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
提案手法は,小調整パラメータの少数個数 (\leq$ 10\%) を置き換えつつ,事前学習に対する元のタスクの有効性を$\sim$ 99\%,新しいタスクに対して$\sim$ 97\%を維持しながら,事前学習パラメータの保存を主目的とする。
具体的には、塩分と感度分析を統合する融合戦略に基づいて、「モデルパッチ」を特定するためにスパースマスクを導出する。
その後、"パッチをデコレートする"ための補償機構が導入され、ターゲットタスクとオリジナルタスクの両方でモデルのパフォーマンスが向上する。
さらに,本手法はマルチタスクシナリオに適用可能である。
InstructBLIP と LLaVA-1.5 による画像キャプションと視覚的質問応答の両タスクの広範な実験を通じて,本手法は固有の事前学習能力を維持しながら,タスク適応性を示す。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。