論文の概要: Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?
- arxiv url: http://arxiv.org/abs/2311.17647v2
- Date: Mon, 10 Jun 2024 23:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 00:48:47.076495
- Title: Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?
- Title(参考訳): テキスト・アズ・イメージ:多モーダルな大言語モデルで画像に印刷命令を送れるか?
- Authors: Xiujun Li, Yujie Lu, Zhe Gan, Jianfeng Gao, William Yang Wang, Yejin Choi,
- Abstract要約: マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。
我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
- 参考スコア(独自算出の注目度): 158.96530466189986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have shown promising instruction following capabilities on vision-language tasks. In this work, we introduce VISUAL MODALITY INSTRUCTION (VIM), and investigate how well multimodal models can understand textual instructions provided in pixels, despite not being explicitly trained on such data during pretraining or fine-tuning. We adapt VIM to eight benchmarks, including OKVQA, MM-Vet, MathVista, MMMU, and probe diverse MLLMs in both the text-modality instruction (TEM) setting and VIM setting. Notably, we observe a significant performance disparity between the original TEM and VIM settings for open-source MLLMs, indicating that open-source MLLMs face greater challenges when text instruction is presented solely in image form. To address this issue, we train v-MLLM, a generalizable model that is capable to conduct robust instruction following in both text-modality and visual-modality instructions.
- Abstract(参考訳): 近年のマルチモーダル・大規模言語モデル (MLLM) は,視覚言語タスクにおいて有望な命令に従う能力を示している。
本研究では,VIM (VISUAL MoDALITY InstructuCTION) を導入し,事前トレーニングや微調整において,これらのデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、OKVQA、MM-Vet、MathVista、MMMUを含む8つのベンチマークにVIMを適用し、テキスト・モダリティ・インストラクション(TEM)とVIMセッティングの両方で様々なMLLMを探索する。
特に,オープンソースMLLMのオリジナルTEM設定とVIM設定との大幅な性能格差を観察し,画像形式でのみテキスト命令を提示する場合,オープンソースMLLMはより大きな課題に直面していることを示す。
この問題に対処するため,テキスト・モダリティと視覚・モダリティの両方で頑健な指示を行うことができる一般化可能なモデルであるv-MLLMを訓練する。
関連論文リスト
- MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment [39.407235223184195]
MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。
大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-06-28T08:25:27Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning [55.033327333250455]
ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。
現在のMLLM(Multimodal Large Language Models)は、ニュース画像キャプションタスクのエンティティ情報を扱う場合に制限がある。
提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2024-02-29T18:03:00Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - SwitchGPT: Adapting Large Language Models for Non-Text Outputs [28.656227306028743]
大規模言語モデル(LLM)は主にテキストベースのデータセットに基づいて訓練されている。
LLMは、テキスト出力による複雑な言語命令の理解と実行において、非常に優れた能力を示す。
テキストベースのLLMをマルチモーダルに進化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T11:38:23Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。