論文の概要: VIM: Probing Multimodal Large Language Models for Visual Embedded
Instruction Following
- arxiv url: http://arxiv.org/abs/2311.17647v1
- Date: Wed, 29 Nov 2023 14:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:06:30.260430
- Title: VIM: Probing Multimodal Large Language Models for Visual Embedded
Instruction Following
- Title(参考訳): VIM:Visual Embedded Instruction に続くマルチモーダルな大規模言語モデルの提案
- Authors: Yujie Lu, Xiujun Li, William Yang Wang, Yejin Choi
- Abstract要約: MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。
VIMは、命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。
我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotという3つの異なるコンテキスト内学習環境にまたがる多様なMLLMを探索する。
- 参考スコア(独自算出の注目度): 109.02943724765959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VISUAL EMBEDDED INSTRUCTION (VIM), a new framework designed to
evaluate the visual instruction following capability of Multimodal Large
Language Models (MLLMs). As illustrated in Figure 2, VIM challenges the MLLMs
by embedding the instructions into the visual scenes, demanding strong visual
interpretative skills for instruction following. We adapt VIM to various
benchmarks, including VQAv2, MME, MM-Vet, and RefCOCO series, compose a VIM
bench, and probe diverse MLLMs across three distinct in-context learning
settings: Zero Shot, One Shot, and Pair Shot. We observe that there is a
significant performance disparity between the open-source MLLMs and GPT-4V,
implying that their proficiency in visual instruction comprehension is not up
to par. Our results highlight a promising direction for the enhancement of
MLLMs capabilities on instruction following. We aim VIM to serve as a useful
norm for advancing the state of the art and driving further progress in the
field.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。
図2に示すように、VIMは命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。
我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotの3つの異なるコンテキスト内学習設定でMLLMを探索する。
我々は,オープンソース mllms と gpt-4v には著しい性能差があり,視覚指導理解の能力が同等ではないことを示唆する。
本研究は,MLLMの学習能力向上に期待できる方向性を示すものである。
我々は、VIMが技術の進歩と分野のさらなる進歩を促進するための有用な規範として機能することを目指している。
関連論文リスト
- Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.471419716572086]
LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。
本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文 参考訳(メタデータ) (2024-11-23T05:03:32Z) - MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment [39.407235223184195]
MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。
大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-06-28T08:25:27Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning [55.033327333250455]
ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。
現在のMLLM(Multimodal Large Language Models)は、ニュース画像キャプションタスクのエンティティ情報を扱う場合に制限がある。
提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2024-02-29T18:03:00Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。