論文の概要: Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions
- arxiv url: http://arxiv.org/abs/2308.04152v3
- Date: Sat, 30 Sep 2023 04:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:32:56.407214
- Title: Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions
- Title(参考訳): ファインチューニング型マルチモーダルLDMによるゼロショットデモインストラクションの追跡
- Authors: Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Hanwang Zhang, Wei Ji,
Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Yueting Zhuang
- Abstract要約: 汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
- 参考スコア(独自算出の注目度): 130.51646691263633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have been
utilizing Visual Prompt Generators (VPGs) to convert visual features into
tokens that LLMs can recognize. This is achieved by training the VPGs on
millions of image-caption pairs, where the VPG-generated tokens of images are
fed into a frozen LLM to generate the corresponding captions. However, this
image-captioning based training objective inherently biases the VPG to
concentrate solely on the primary visual contents sufficient for caption
generation, often neglecting other visual details. This shortcoming results in
MLLMs' underperformance in comprehending demonstrative instructions consisting
of multiple, interleaved, and multimodal instructions that demonstrate the
required context to complete a task. To address this issue, we introduce a
generic and lightweight Visual Prompt Generator Complete module (VPG-C), which
can infer and complete the missing details essential for comprehending
demonstrative instructions. Further, we propose a synthetic discriminative
training strategy to fine-tune VPG-C, eliminating the need for supervised
demonstrative instructions. As for evaluation, we build DEMON, a comprehensive
benchmark for demonstrative instruction understanding. Synthetically trained
with the proposed strategy, VPG-C achieves significantly stronger zero-shot
performance across all tasks of DEMON. Further evaluation on the MME and
OwlEval benchmarks also demonstrate the superiority of VPG-C. Our benchmark,
code, and pre-trained models are available at
https://github.com/DCDmllm/Cheetah.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的特徴をLLMが認識できるトークンに変換するために、Visual Prompt Generators(VPG)を利用している。
これは、VPGが生成した画像のトークンを冷凍LDMに供給して対応するキャプションを生成する、数百万のイメージキャプチャペアでVPGをトレーニングすることで達成される。
しかし、この画像キャプションに基づくトレーニングの目的は、本質的にVPGがキャプション生成に十分な一次視覚内容のみに偏り、しばしば他の視覚的詳細を無視している。
この欠点は、タスクの完了に必要なコンテキストを示す複数の、インターリーブされた、マルチモーダルな命令からなる説明命令を包括するmllmsの低パフォーマンスをもたらす。
この問題に対処するために,実証的命令の解釈に必要な詳細を推論し,完成させる,汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
また,VPG-Cを微調整し,教師付き指示の必要をなくすための総合的識別訓練戦略を提案する。
評価では,実証的指導理解のための総合的なベンチマークであるDEMONを構築した。
提案した戦略を総合的に訓練し,VPG-C は DEMON のすべてのタスクにおいて,より強力なゼロショット性能を実現する。
MMEおよびOwlEvalベンチマークのさらなる評価もVPG-Cの優位性を示している。
ベンチマーク、コード、トレーニング済みモデルはhttps://github.com/dcdmllm/cheetah.com/で利用可能です。
関連論文リスト
- TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文 参考訳(メタデータ) (2023-05-10T17:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。