論文の概要: MMICL: Empowering Vision-language Model with Multi-Modal In-Context
Learning
- arxiv url: http://arxiv.org/abs/2309.07915v1
- Date: Thu, 14 Sep 2023 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 11:44:52.592803
- Title: MMICL: Empowering Vision-language Model with Multi-Modal In-Context
Learning
- Title(参考訳): MMICL:マルチモーダルインコンテキスト学習による視覚言語モデルの構築
- Authors: Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang
Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
- Abstract要約: 視覚言語モデル(VLM)は、複雑なマルチモーダルプロンプトを複数の画像で理解するのに依然として苦労している。
MMICLは、幅広い視覚言語タスクにおいて、最先端のゼロショットと少数ショットのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 44.10449890564619
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Starting from the resurgence of deep learning, vision-language models (VLMs)
benefiting from large language models (LLMs) have never been so popular.
However, while LLMs can utilize extensive background knowledge and task
information with in-context learning, most VLMs still struggle with
understanding complex multi-modal prompts with multiple images. The issue can
traced back to the architectural design of VLMs or pre-training data.
Specifically, the current VLMs primarily emphasize utilizing multi-modal data
with a single image some, rather than multi-modal prompts with interleaved
multiple images and text. Even though some newly proposed VLMs could handle
user prompts with multiple images, pre-training data does not provide more
sophisticated multi-modal prompts than interleaved image and text crawled from
the web. We propose MMICL to address the issue by considering both the model
and data perspectives. We introduce a well-designed architecture capable of
seamlessly integrating visual and textual context in an interleaved manner and
MIC dataset to reduce the gap between the training data and the complex user
prompts in real-world applications, including: 1) multi-modal context with
interleaved images and text, 2) textual references for each image, and 3)
multi-image data with spatial, logical, or temporal relationships. Our
experiments confirm that MMICL achieves new stat-of-the-art zero-shot and
few-shot performance on a wide range of general vision-language tasks,
especially for complex reasoning benchmarks including MME and MMBench. Our
analysis demonstrates that MMICL effectively deals with the challenge of
complex multi-modal prompt understanding. The experiments on ScienceQA-IMG also
show that MMICL successfully alleviates the issue of language bias in VLMs,
which we believe is the reason behind the advanced performance of MMICL.
- Abstract(参考訳): ディープラーニングの復活から始めて、大きな言語モデル(LLM)の恩恵を受ける視覚言語モデル(VLM)は、それほど人気がない。
しかし、LLMは背景知識やタスク情報をテキスト内学習に利用できるが、ほとんどのVLMは複雑なマルチモーダルプロンプトの理解に苦戦している。
この問題は、VLMのアーキテクチャ設計や事前学習データに遡ることができる。
具体的には、現在のvlmsでは、複数のイメージとテキストをインターリーブしたマルチモーダルプロンプトではなく、単一のイメージでマルチモーダルデータを活用することを強調している。
新たに提案されたVLMは、複数の画像でユーザプロンプトを処理できるが、事前学習データでは、インターリーブされた画像やWebからクロールされたテキストよりも洗練されたマルチモーダルプロンプトが提供されない。
モデルとデータの観点から,この問題に対処するMMICLを提案する。
リアルなアプリケーションにおけるトレーニングデータと複雑なユーザプロンプトのギャップを軽減するために、インターリーブ方式で視覚的コンテキストとテキスト的コンテキストをシームレスに統合できる、よく設計されたアーキテクチャを導入します。
1)インターリーブ画像とテキストを用いたマルチモーダルコンテキスト
2)各画像のテキスト参照、及び
3)空間的,論理的,時間的関係を有するマルチイメージデータ。
実験の結果,MME や MMBench などの複雑な推論ベンチマークにおいて,MMICL は多種多様な視覚言語タスクにおいて,最新のゼロショットと少数ショットのパフォーマンスを達成できることが確認された。
解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に対処できることが示された。
ScienceQA-IMGの実験により、MMICLはVLMにおける言語バイアスの問題を軽減することができた。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。