論文の概要: MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark
- arxiv url: http://arxiv.org/abs/2508.07307v1
- Date: Sun, 10 Aug 2025 11:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.8034
- Title: MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark
- Title(参考訳): MCITlib:マルチモーダル連続命令チューニングライブラリとベンチマーク
- Authors: Haiyang Guo, Fei Zhu, Hongbo Zhao, Fanhu Zeng, Wenzhuo Liu, Shijie Ma, Da-Han Wang, Xu-Yao Zhang,
- Abstract要約: 継続的な学習は、人間の学習と同様、これまで学んだ情報を忘れずに、新しい知識を継続的に獲得し、新しい知識に適応する能力を備えたAIシステムを提供することを目的としている。
マルチモーダル大規模言語モデルの出現は、視覚や言語などの複数のモーダルを含むマルチモーダル連続学習タスクに注目が集まるようになった。
MCITlibは,多モーダル大規模言語モデルの連続的命令チューニングのための包括的かつ絶え間なく進化するライブラリコードである。
- 参考スコア(独自算出の注目度): 20.117700569156884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning aims to equip AI systems with the ability to continuously acquire and adapt to new knowledge without forgetting previously learned information, similar to human learning. While traditional continual learning methods focusing on unimodal tasks have achieved notable success, the emergence of Multimodal Large Language Models has brought increasing attention to Multimodal Continual Learning tasks involving multiple modalities, such as vision and language. In this setting, models are expected to not only mitigate catastrophic forgetting but also handle the challenges posed by cross-modal interactions and coordination. To facilitate research in this direction, we introduce MCITlib, a comprehensive and constantly evolving code library for continual instruction tuning of Multimodal Large Language Models. In MCITlib, we have currently implemented 8 representative algorithms for Multimodal Continual Instruction Tuning and systematically evaluated them on 2 carefully selected benchmarks. MCITlib will be continuously updated to reflect advances in the Multimodal Continual Learning field. The codebase is released at https://github.com/Ghy0501/MCITlib.
- Abstract(参考訳): 継続的な学習は、人間の学習と同様、これまで学んだ情報を忘れずに、新しい知識を継続的に獲得し、新しい知識に適応する能力を備えたAIシステムを提供することを目的としている。
非モーダルなタスクに焦点をあてた従来の連続学習手法は顕著な成功を収めてきたが、多モーダル大規模言語モデルの出現は、視覚や言語など複数のモーダルを含む多モーダル連続学習タスクに注目が集まっている。
この設定では、モデルは破滅的な忘れを緩和するだけでなく、クロスモーダルな相互作用と協調によって生じる課題にも対処することが期待されている。
この方向の研究を容易にするために,多モーダル大規模言語モデルの連続的な命令チューニングのための包括的かつ絶え間なく進化するコードライブラリMCITlibを紹介する。
MCITlibでは,Multimodal Continual Instruction Tuningのための8つの代表アルゴリズムを実装し,慎重に選択された2つのベンチマークでそれらを体系的に評価している。
MCITlibは、マルチモーダル連続学習分野の進歩を反映して継続的に更新される。
コードベースはhttps://github.com/Ghy0501/MCITlibで公開されている。
関連論文リスト
- Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Modality-Inconsistent Continual Learning of Multimodal Large Language Models [37.15220266767881]
マルチモーダル大言語モデル(MLLM)のための新しい連続学習シナリオであるMICL(Modality-Inconsistent Continual Learning)を導入する。
既存の視覚のみやモダリティの増分設定とは異なり、MICLはモダリティとタスクタイプのシフトを組み合わせており、どちらも破滅的な忘れを招いている。
本稿では, Pseudo Targets Generation Module を用いて, 以前見られたタスクタイプシフトによる忘れを軽減した MoInCL を提案する。
論文 参考訳(メタデータ) (2024-12-17T16:13:56Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。