論文の概要: Making Large Multimodal Models Understand Arbitrary Visual Prompts
- arxiv url: http://arxiv.org/abs/2312.00784v1
- Date: Fri, 1 Dec 2023 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 13:39:20.556207
- Title: Making Large Multimodal Models Understand Arbitrary Visual Prompts
- Title(参考訳): 任意視プロンプトに従わない大規模マルチモーダルモデルの構築
- Authors: Mu Cai, Haotian Liu, Siva Karthik Mustikovela, Gregory P. Meyer,
Yuning Chai, Dennis Park, Yong Jae Lee
- Abstract要約: 任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。
これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。
我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
- 参考スコア(独自算出の注目度): 40.526384693638065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing large vision-language multimodal models focus on whole image
understanding, there is a prominent gap in achieving region-specific
comprehension. Current approaches that use textual coordinates or spatial
encodings often fail to provide a user-friendly interface for visual prompting.
To address this challenge, we introduce a novel multimodal model capable of
decoding arbitrary visual prompts. This allows users to intuitively mark images
and interact with the model using natural cues like a "red bounding box" or
"pointed arrow". Our simple design directly overlays visual markers onto the
RGB image, eliminating the need for complex region encodings, yet achieves
state-of-the-art performance on region-understanding tasks like Visual7W,
PointQA, and Visual Commonsense Reasoning benchmark. Furthermore, we present
ViP-Bench, a comprehensive benchmark to assess the capability of models in
understanding visual prompts across multiple dimensions, enabling future
research in this domain. Code, data, and model are publicly available.
- Abstract(参考訳): 既存の大規模視覚言語マルチモーダルモデルは画像全体の理解に焦点を当てているが、地域固有の理解を達成するためのギャップは顕著である。
テキスト座標や空間符号化を用いる現在のアプローチは、視覚的なプロンプトのためのユーザフレンドリーなインターフェースを提供していないことが多い。
そこで本研究では,任意の視覚プロンプトをデコードできるマルチモーダルモデルを提案する。
これにより、ユーザーは直感的に画像にマークを付け、"red bounding box"や"pointed arrow"のような自然な手がかりを使ってモデルと対話することができる。
私たちのシンプルな設計は、rgbイメージに直接ビジュアルマーカーをオーバーレイし、複雑な領域エンコーディングの必要性をなくしますが、visual7w、pointqa、visual commonsense推論ベンチマークといった領域理解タスクで最先端のパフォーマンスを実現しています。
さらに、複数の次元にわたる視覚的プロンプトを理解するためのモデルの有効性を評価するための総合的なベンチマークViP-Benchを提案する。
コード、データ、モデルは公開されている。
関連論文リスト
- More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension [12.9701635989222]
EarthMarkerと呼ばれる最初の視覚的プロンプトモデルが提案され、画像レベル、領域レベル、ポイントレベルRSの解釈に優れる。
多様な多粒度視覚知覚能力を持つEarthMarkerを実現するために、クロスドメイン位相学習戦略を開発した。
RSの視覚的プロンプトデータの欠如に対処するため、マルチモーダルな視覚的プロンプト命令を備えたRSVPというデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [27.45225442048711]
我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T12:21:37Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。