論文の概要: Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want
- arxiv url: http://arxiv.org/abs/2403.20271v2
- Date: Mon, 1 Apr 2024 03:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:25:26.455290
- Title: Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want
- Title(参考訳): 図面と理解: Visual Promptsを活用してMLLMで必要なものを理解する
- Authors: Weifeng Lin, Xinyu Wei, Ruichuan An, Peng Gao, Bocheng Zou, Yulin Luo, Siyuan Huang, Shanghang Zhang, Hongsheng Li,
- Abstract要約: 我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
- 参考スコア(独自算出の注目度): 58.091825321168514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interaction between humans and artificial intelligence (AI) is a crucial factor that reflects the effectiveness of multimodal large language models (MLLMs). However, current MLLMs primarily focus on image-level comprehension and limit interaction to textual instructions, thereby constraining their flexibility in usage and depth of response. In this paper, we introduce the Draw-and-Understand project: a new model, a multi-domain dataset, and a challenging benchmark for visual prompting. Specifically, we propose SPHINX-V, a new end-to-end trained Multimodal Large Language Model (MLLM) that connects a vision encoder, a visual prompt encoder and an LLM for various visual prompts (points, bounding boxes, and free-form shape) and language understanding. To advance visual prompting research for MLLMs, we introduce MDVP-Data and MDVP-Bench. MDVP-Data features a multi-domain dataset containing 1.6M unique image-visual prompt-text instruction-following samples, including natural images, document images, OCR images, mobile screenshots, web screenshots, and multi-panel images. Furthermore, we present MDVP-Bench, a comprehensive and challenging benchmark to assess a model's capability in understanding visual prompting instructions. Our experiments demonstrate SPHINX-V's impressive multimodal interaction capabilities through visual prompting, revealing significant improvements in detailed pixel-level description and question-answering abilities.
- Abstract(参考訳): 人間と人工知能(AI)の相互作用は、マルチモーダル大言語モデル(MLLM)の有効性を反映する重要な要素である。
しかし、現在のMLLMは主に画像レベルの理解とテキスト命令との相互作用の制限に重点を置いており、それによって使用量や応答深さの柔軟性を制限している。
本稿では、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、視覚的プロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚的エンコーダ、視覚的プロンプトエンコーダ、および様々な視覚的プロンプト(ポイント、バウンディングボックス、フリーフォーム形状)と言語理解のためのLLMを接続する、新しいエンドツーエンド訓練型マルチモーダル言語モデル(MLLM)であるSPHINX-Vを提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
MDVP-Dataは、自然画像、ドキュメントイメージ、OCRイメージ、モバイルスクリーンショット、Webスクリーンショット、マルチパネルイメージを含む1.6Mのユニークな画像-視覚的プロンプト-テキスト命令-フォローのサンプルを含むマルチドメインデータセットを備えている。
さらに、MDVP-Benchは、視覚的プロンプト命令を理解するためのモデルの能力を評価するために、包括的で挑戦的なベンチマークである。
我々は,SPHINX-Vの視覚的プロンプトによる印象的なマルチモーダルインタラクション能力を示し,詳細な画素レベルの記述と質問応答能力の大幅な向上を明らかにした。
関連論文リスト
- EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension [12.9701635989222]
EarthMarkerと呼ばれる最初の視覚的プロンプトモデルが提案され、画像レベル、領域レベル、ポイントレベルRSの解釈に優れる。
多様な多粒度視覚知覚能力を持つEarthMarkerを実現するために、クロスドメイン位相学習戦略を開発した。
RSの視覚的プロンプトデータの欠如に対処するため、マルチモーダルな視覚的プロンプト命令を備えたRSVPというデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - LMEye: An Interactive Perception Network for Large Language Models [43.160353427015025]
LMEyeは、プレイ・アンド・プラグの対話型知覚ネットワークを備えた人間のような眼である。
大規模言語モデルと外部視覚情報との動的相互作用を可能にする。
様々なマルチモーダルタスクにおけるゼロショット性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-05T17:27:21Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。