論文の概要: MMICL: Empowering Vision-language Model with Multi-Modal In-Context
Learning
- arxiv url: http://arxiv.org/abs/2309.07915v2
- Date: Mon, 2 Oct 2023 14:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:11:36.626550
- Title: MMICL: Empowering Vision-language Model with Multi-Modal In-Context
Learning
- Title(参考訳): MMICL:マルチモーダルインコンテキスト学習による視覚言語モデルの構築
- Authors: Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang
Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
- Abstract要約: 本稿では,視覚言語モデルによるマルチモーダル入力を効率的に処理するための新しいアプローチであるMMICLを紹介する。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に取り組み,印象的なICL能力を実現していることがわかった。
- 参考スコア(独自算出の注目度): 44.10449890564619
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since the resurgence of deep learning, vision-language models (VLMs) enhanced
by large language models (LLMs) have grown exponentially in popularity.
However, while LLMs can utilize extensive background knowledge and task
information with in-context learning, most VLMs still struggle with
understanding complex multi-modal prompts with multiple images, making VLMs
less effective in downstream vision-language tasks. In this paper, we address
the limitation above by 1) introducing MMICL, a new approach to allow the VLM
to deal with multi-modal inputs efficiently; 2) proposing a novel context
scheme to augment the in-context learning ability of the VLM; 3) constructing
the Multi-modal In-Context Learning (MIC) dataset, designed to enhance the
VLM's ability to understand complex multi-modal prompts. Our experiments
confirm that MMICL achieves new state-of-the-art zero-shot performance on a
wide range of general vision-language tasks, especially for complex benchmarks,
including MME and MMBench. Our analysis demonstrates that MMICL effectively
tackles the challenge of complex multi-modal prompt understanding and emerges
the impressive ICL ability. Furthermore, we observe that MMICL successfully
alleviates language bias in VLMs, a common issue for VLMs that often leads to
hallucination when faced with extensive textual context.
- Abstract(参考訳): ディープラーニングの復活以来,大規模言語モデル (LLM) によって強化された視覚言語モデル (VLM) が急速に普及してきた。
しかし、LLMは背景知識やタスク情報をコンテキスト内学習に利用できるが、多くのVLMは複雑なマルチモーダルプロンプトを複数の画像で理解することに苦慮しているため、VLMは下流の視覚言語タスクでは効果が低い。
本稿では,上記の制限について述べる。
1 MMICLの導入は、VLMがマルチモーダル入力を効率的に処理するための新しいアプローチである。
2) VLMの文脈内学習能力を高めるための新しい文脈スキームの提案
3)マルチモーダル・イン・コンテキスト・ラーニング(mic)データセットの構築は、vlmが複雑なマルチモーダル・プロンプトを理解する能力を高めるために設計されている。
実験の結果,MME や MMBench などの複雑なベンチマークにおいて,多種多様な視覚言語タスクにおいて,MMICL が新たなゼロショット性能を実現することを確認した。
解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に取り組み,印象的なICL能力を実現していることがわかった。
さらに,mmiclはvlmsにおける言語バイアスの軽減に成功しており,広義のテキスト文脈に直面すると幻覚を生じやすいvlmsの一般的な問題である。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。