論文の概要: Investigating the Catastrophic Forgetting in Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.10313v3
- Date: Tue, 3 Oct 2023 20:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:33:02.703151
- Title: Investigating the Catastrophic Forgetting in Multimodal Large Language
Models
- Title(参考訳): マルチモーダル大言語モデルにおけるカタストロフィック・フォーミングの検討
- Authors: Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee,
Yi Ma
- Abstract要約: MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。
ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。
微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
- 参考スコア(独自算出の注目度): 43.89009178021342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the success of GPT4, there has been a surge in interest in
multimodal large language model (MLLM) research. This line of research focuses
on developing general-purpose LLMs through fine-tuning pre-trained LLMs and
vision models. However, catastrophic forgetting, a notorious phenomenon where
the fine-tuned model fails to retain similar performance compared to the
pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM).
In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the
catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier.
We first apply EMT to evaluate several open-source fine-tuned MLLMs and we
discover that almost all evaluated MLLMs fail to retain the same performance
levels as their vision encoders on standard image classification tasks.
Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess
performance throughout the fine-tuning. Interestingly, our results suggest that
early-stage fine-tuning on an image dataset improves performance across other
image datasets, by enhancing the alignment of text and visual features.
However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in
a significant loss of generalizability, even when the image encoder remains
frozen. Our results suggest that MLLMs have yet to demonstrate performance on
par with their vision models on standard image classification tasks and the
current MLLM fine-tuning procedure still has room for improvement.
- Abstract(参考訳): GPT4の成功を受けて、マルチモーダル大言語モデル(MLLM)研究への関心が高まっている。
この一連の研究は、微調整済みのLLMと視覚モデルによる汎用LLMの開発に焦点を当てている。
しかし、微調整モデルが事前訓練モデルと同じような性能を保たないという悪名高い破滅的な忘れ込みは、マルチモーダルLLM(MLLM)に固有の問題として残っている。
本稿では,各MLLMを画像分類器として扱うことにより,MLLMの破滅的忘れを評価するためのMulTimodalityの評価を行う。
我々はまず,オープンソースの細調整MLLMの評価にEMTを適用し,ほぼすべての評価されたMLLMが,標準的な画像分類タスクにおける視覚エンコーダと同じ性能を維持することができないことを発見した。
さらに、MLLMであるLLaVAの微調整を継続し、EMTを用いて微調整を通して性能を評価する。
興味深いことに、画像データセットの初期段階の微調整により、テキストとビジュアル機能のアライメントが向上し、他の画像データセットのパフォーマンスが向上することが示唆される。
しかし、微調整が進むにつれてMLLMは幻覚し始め、イメージエンコーダが凍結したままでも、一般化性が著しく低下する。
以上の結果から,MLLMは標準的な画像分類作業におけるビジョンモデルと同等の性能を示していないことが示唆された。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data [3.08543976986593]
MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。
本稿では,新しいアノテーションのない評価手法であるGenCeptionの概要と検証を行う。
モダリティ間のセマンティック・コヒーレンスを測定するために一元データのみを必要とし、逆にMLLMの幻覚傾向を評価する。
論文 参考訳(メタデータ) (2024-02-22T21:22:04Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling [0.0]
最近のデコーダのみの大規模言語モデル(LLM)は、より小さなステートベースのエンコーダと同等に動作する。
因果マスクを階層的に除去することで,IEタスク上でのオープンLLMのSL性能を向上させる手法について検討する。
その結果,層依存性CM除去によるオープンLCMは,強いエンコーダや命令調整LDMよりも優れていた。
論文 参考訳(メタデータ) (2024-01-25T22:50:48Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。