論文の概要: MultiModal Fine-tuning with Synthetic Captions
- arxiv url: http://arxiv.org/abs/2601.21426v1
- Date: Thu, 29 Jan 2026 09:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.687591
- Title: MultiModal Fine-tuning with Synthetic Captions
- Title(参考訳): 合成キャプションを用いたマルチモーダルファインチューニング
- Authors: Shohei Enomoto, Shin'ya Yamaguchi,
- Abstract要約: MLLM(Multimodal Large Language Models)を用いた一様データセットをマルチモーダルモデルに変換する新しい手法を提案する。
本手法では,クラスラベルとドメインコンテキストを組み込んで,分類タスクの高品質なキャプションを生成するために,慎重に設計したプロンプトを用いる。
我々の研究は、マルチモーダル事前学習と微調整のギャップを効果的に橋渡しするデータセット拡張のための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 9.572235167281686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address a fundamental gap between pre-training and fine-tuning of deep neural networks: while pre-training has shifted from unimodal to multimodal learning with enhanced visual understanding, fine-tuning predominantly remains unimodal, limiting the benefits of rich pre-trained representations. To bridge this gap, we propose a novel approach that transforms unimodal datasets into multimodal ones using Multimodal Large Language Models (MLLMs) to generate synthetic image captions for fine-tuning models with a multimodal objective. Our method employs carefully designed prompts incorporating class labels and domain context to produce high-quality captions tailored for classification tasks. Furthermore, we introduce a supervised contrastive loss function that explicitly encourages clustering of same-class representations during fine-tuning, along with a new inference technique that leverages class-averaged text embeddings from multiple synthetic captions per image. Extensive experiments across 13 image classification benchmarks demonstrate that our approach outperforms baseline methods, with particularly significant improvements in few-shot learning scenarios. Our work establishes a new paradigm for dataset enhancement that effectively bridges the gap between multimodal pre-training and fine-tuning. Our code is available at https://github.com/s-enmt/MMFT.
- Abstract(参考訳): 本稿では、事前学習と深層ニューラルネットワークの微調整の基本的なギャップを解消する: 事前学習は、視覚的理解の強化により、一様学習から多様学習に移行した一方、微調整は、主に一様学習のままであり、豊富な事前学習表現の利点を制限している。
このギャップを埋めるために,マルチモーダル・データセットをマルチモーダル・大規模言語モデル (Multimodal Large Language Models, MLLM) を用いてマルチモーダル・データセットに変換し, マルチモーダル目的の微調整モデルのための合成画像キャプションを生成する手法を提案する。
本手法では,分類作業に適した高品質なキャプションを生成するために,クラスラベルとドメインコンテキストを取り入れたプロンプトを慎重に設計する。
さらに、教師付きコントラスト損失関数を導入し、微調整中に同じクラス表現のクラスタリングを明示的に促すとともに、画像ごとの複数の合成キャプションから平均的なテキスト埋め込みを活用する新しい推論手法を提案する。
13の画像分類ベンチマークによる大規模な実験により、我々のアプローチはベースライン手法よりも優れており、特に数ショットの学習シナリオにおいて顕著に改善されている。
我々の研究は、マルチモーダル事前学習と微調整のギャップを効果的に橋渡しするデータセット拡張のための新しいパラダイムを確立する。
私たちのコードはhttps://github.com/s-enmt/MMFT.comで公開されています。
関連論文リスト
- Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。