論文の概要: MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples
- arxiv url: http://arxiv.org/abs/2312.06363v2
- Date: Tue, 12 Dec 2023 06:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:30:30.364692
- Title: MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples
- Title(参考訳): MMICT: インコンテキスト例によるマルチモーダルファインチューニングの強化
- Authors: Tao Chen, Enwei Zhang, Yuting Gao, Ke Li, Xing Sun, Yan Zhang and Hui
Li
- Abstract要約: MMICT(Multi-Modal In-Context Tuning)は、マルチモーダル微調整を促進する新しいパラダイムである。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
- 参考スコア(独自算出の注目度): 30.284100018891397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although In-Context Learning (ICL) brings remarkable performance gains to
Large Language Models (LLMs), the improvements remain lower than fine-tuning on
downstream tasks. This paper introduces Multi-Modal In-Context Tuning (MMICT),
a novel multi-modal fine-tuning paradigm that boosts multi-modal fine-tuning by
fully leveraging the promising ICL capability of multi-modal LLMs (MM-LLMs). We
propose the Multi-Modal Hub (M-Hub), a unified module that captures various
multi-modal features according to different inputs and objectives. Based on
M-Hub, MMICT enables MM-LLMs to learn from in-context visual-guided textual
features and subsequently generate outputs conditioned on the textual-guided
visual features. Moreover, leveraging the flexibility of M-Hub, we design a
variety of in-context demonstrations. Extensive experiments on a diverse range
of downstream multi-modal tasks demonstrate that MMICT significantly
outperforms traditional fine-tuning strategy and the vanilla ICT method that
directly takes the concatenation of all information from different modalities
as input.
- Abstract(参考訳): In-Context Learning(ICL)は、Large Language Models(LLM)に顕著なパフォーマンス向上をもたらすが、下流タスクの微調整よりも改善は低いままである。
本稿では,マルチモーダル LLM (MM-LLMs) の有望な ICL 機能を完全に活用することにより,マルチモーダル微調整を促進する新しいマルチモーダル微調整パラダイムであるMMICTを提案する。
様々な入力や目的に応じて様々なマルチモーダル機能をキャプチャする統合モジュールであるマルチモーダルハブ(m-hub)を提案する。
m-hub に基づいて mmict は、mm-llm がコンテキスト内ビジュアルガイド付きテキスト特徴から学習し、その後、テキストガイド付きビジュアル特徴に基づく出力を生成することができる。
さらに、M-Hubの柔軟性を活用して、さまざまなコンテキスト内デモを設計する。
多様な下流マルチモーダルタスクに対する広範囲な実験により、MMICTは従来の微調整戦略と、異なるモーダルからの全ての情報を入力として直接結合するバニラICT法を著しく上回ることを示した。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。