論文の概要: Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives
- arxiv url: http://arxiv.org/abs/2511.18507v2
- Date: Tue, 02 Dec 2025 06:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.021869
- Title: Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives
- Title(参考訳): マルチシナリオから見たMLLMによるマルチモーダル連続学習
- Authors: Kai Jiang, Siqi Huang, Xiangyu Chen, Jiawei Shao, Hongyuan Zhang, Xuelong Li,
- Abstract要約: 視覚理解における連続学習は,多モーダル大言語モデル(MLLM)における破滅的忘れに対処することを目的としている
我々は、4つの異なるシナリオと視点を含むマルチモーダル視覚理解データセット(MSVQA)を構築した。
MLLMを用いたmUltimodal coNtInual Learningを提案する。
- 参考スコア(独自算出の注目度): 61.64550292163646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning in visual understanding aims to deal with catastrophic forgetting in Multimodal Large Language Models (MLLMs). MLLMs deployed on devices have to continuously adapt to dynamic scenarios in downstream tasks, such as variations in background and perspective, to effectively perform complex visual tasks. To this end, we construct a multimodal visual understanding dataset (MSVQA) encompassing four different scenarios and perspectives including high altitude, underwater, low altitude and indoor, to investigate the catastrophic forgetting in MLLMs under the dynamics of scenario shifts in real-world data streams. Furthermore, we propose mUltimodal coNtInual learning with MLLMs From multi-scenarIo pERspectives (UNIFIER) to address visual discrepancies while learning different scenarios. Specifically, it decouples the visual information from different scenarios into distinct branches within each vision block and projects them into the same feature space. A consistency constraint is imposed on the features of each branch to maintain the stability of visual representations across scenarios. Extensive experiments on the MSVQA dataset demonstrate that UNIFIER effectively alleviates forgetting of cross-scenario tasks and achieves knowledge accumulation within the same scenario.
- Abstract(参考訳): 視覚的理解における継続的な学習は、多モーダル大言語モデル(MLLM)における破滅的な忘れに対処することを目的としている。
デバイスにデプロイされるMLLMは、背景や視野のバリエーションのような下流タスクの動的なシナリオに継続的に適応し、複雑な視覚タスクを効果的に実行する必要がある。
この目的のために,マルチモーダル視覚理解データセット(MSVQA)を構築し,実世界のデータストリームにおけるシナリオシフトのダイナミクスの下でMLLMにおける破滅的な忘れを調査するために,高度・水中・低高度・屋内を含む4つのシナリオと視点を包含する。
さらに,Multimodal coNtInual Learning with MLLMs from multi-scenarIo pERspectives (UNIFIER) を提案する。
具体的には、異なるシナリオからの視覚情報を各ビジョンブロック内の別々のブランチに分離し、それらを同じ機能空間に投影する。
シナリオ間の視覚的表現の安定性を維持するために、各ブランチの特徴に一貫性の制約が課される。
MSVQAデータセットの大規模な実験は、UNIFIERがクロスシナリオタスクの忘れを効果的に軽減し、同じシナリオ内で知識の蓄積を達成することを実証している。
関連論文リスト
- Vision-Centric Activation and Coordination for Multimodal Large Language Models [42.26911585599856]
マルチモーダルな大言語モデル(MLLM)は、視覚エンコーダからLLMへのイメージ機能を統合し、高度な理解能力を示す。
しかし、メインストリームMLLMは、重要な視覚中心の情報を無視して、テキストトークンの次のトークン予測によってのみ監督される。
本稿では,ビジョン中心のアクティベーションとコーディネーションによってMLLM表現を最適化するVaCoを紹介する。
論文 参考訳(メタデータ) (2025-10-16T06:38:39Z) - REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding [36.376220619032225]
REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。
1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。
REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
論文 参考訳(メタデータ) (2025-03-10T14:59:14Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。