論文の概要: HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2503.12941v1
- Date: Mon, 17 Mar 2025 08:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:26.996231
- Title: HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model
- Title(参考訳): HiDe-LLaVA:マルチモーダル大言語モデルの連続的指導チューニングのための階層的デカップリング
- Authors: Haiyang Guo, Fanhu Zeng, Ziwei Xiang, Fei Zhu, Da-Han Wang, Xu-Yao Zhang, Cheng-Lin Liu,
- Abstract要約: MLLM(Multimodal Large Language Model)の改良には,インストラクションチューニングが広く用いられている。
現実のシナリオで可能なすべての命令データセットを同時に収集することは不可能である。
本稿では,CKA(Centered Kernel Alignment)の類似性に基づくタスク固有拡張およびタスク一般融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.85614317331844
- License:
- Abstract: Instruction tuning is widely used to improve a pre-trained Multimodal Large Language Model (MLLM) by training it on curated task-specific datasets, enabling better comprehension of human instructions. However, it is infeasible to collect all possible instruction datasets simultaneously in real-world scenarios. Thus, enabling MLLM with continual instruction tuning is essential for maintaining their adaptability. However, existing methods often trade off memory efficiency for performance gains, significantly compromising overall efficiency. In this paper, we propose a task-specific expansion and task-general fusion framework based on the variations in Centered Kernel Alignment (CKA) similarity across different model layers when trained on diverse datasets. Furthermore, we analyze the information leakage present in the existing benchmark and propose a new and more challenging benchmark to rationally evaluate the performance of different methods. Comprehensive experiments showcase a significant performance improvement of our method compared to existing state-of-the-art methods. Our code will be public available.
- Abstract(参考訳): インストラクションチューニングは、訓練済みのマルチモーダル大規模言語モデル(MLLM)を改善するために広く用いられている。
しかし、現実のシナリオで可能なすべての命令データセットを同時に収集することは不可能である。
したがって、MLLMを連続的な命令チューニングで有効にすることは、適応性を維持する上で不可欠である。
しかしながら、既存の手法はメモリ効率を性能向上のためにトレードオフし、全体的な効率を著しく向上させる。
本稿では,CKA(Centered Kernel Alignment, 中心カーネルアライメント)の類似性に基づくタスク固有拡張およびタスク汎用融合フレームワークを提案する。
さらに、既存のベンチマークに存在する情報漏洩を分析し、異なる手法の性能を合理的に評価する新しい、より困難なベンチマークを提案する。
総合的な実験により,既存の最先端手法と比較して,本手法の大幅な性能向上が示された。
私たちのコードは公開されます。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - SwitchCIT: Switching for Continual Instruction Tuning [14.085371250265224]
大規模言語モデル (LLM) とマルチモーダルモデル (MM) は、様々な領域で印象的な機能を示している。
タスクやドメインの進化に大規模なモデルを適用するためには、継続的な命令チューニングが不可欠である。
この研究は、パラメータ効率の調整モデルに計算をルーティングするメカニズムを通じて、連続的な命令学習における破滅的な忘れに対処する。
論文 参考訳(メタデータ) (2024-07-16T14:37:33Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。
Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - DEPHN: Different Expression Parallel Heterogeneous Network using virtual
gradient optimization for Multi-task Learning [1.0705399532413615]
マルチタスク学習(MTL)に基づく推薦システムアルゴリズムは、インターネットオペレーターがユーザを理解し、その振る舞いを予測する主要な方法である。
従来のモデルでは、共有ボットモデルとゲーティングの専門家を使用して、共有表現学習と情報の差別化を実現している。
本稿では,複数のタスクを同時にモデル化するための異なる表現並列不均一ネットワーク(DEPHN)を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:00Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。