論文の概要: V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2312.14135v2
- Date: Tue, 26 Dec 2023 15:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:21:19.798347
- Title: V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs
- Title(参考訳): v*:マルチモーダルllmの中核機構としての誘導視覚探索
- Authors: Penghao Wu, Saining Xie
- Abstract要約: V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
- 参考スコア(独自算出の注目度): 34.211455081027964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When we look around and perform complex tasks, how we see and selectively
process what we see is crucial. However, the lack of this visual search
mechanism in current multimodal LLMs (MLLMs) hinders their ability to focus on
important visual details, especially when handling high-resolution and visually
crowded images. To address this, we introduce V*, an LLM-guided visual search
mechanism that employs the world knowledge in LLMs for efficient visual
querying. When combined with an MLLM, this mechanism enhances collaborative
reasoning, contextual understanding, and precise targeting of specific visual
elements. This integration results in a new MLLM meta-architecture, named Show,
sEArch, and TelL (SEAL). We further create V*Bench, a benchmark specifically
designed to evaluate MLLMs in their ability to process high-resolution images
and focus on visual details. Our study highlights the necessity of
incorporating visual search capabilities into multimodal systems. The code is
available https://github.com/penghao-wu/vstar.
- Abstract(参考訳): 複雑なタスクを振り返って実行するとき、見るものをどのように見て、選択的に処理するかが重要です。
しかし、現在のMLLM(Multimodal LLM)におけるこの視覚探索機構の欠如は、特に高解像度で視覚的に混み合った画像を扱う際に、重要な視覚的詳細に集中する能力を妨げている。
そこで我々は,llmにおける世界知識を効率的なビジュアルクエリに活用する,llm誘導ビジュアル検索機構であるv*を紹介する。
MLLMと組み合わせると、このメカニズムは協調的推論、文脈理解、特定の視覚要素の正確なターゲティングを促進する。
この統合により、Show、sEArch、TelL (SEAL) と名付けられたMLLMメタアーキテクチャが新たに導入された。
V*Benchは、高解像度画像を処理し、視覚的詳細に集中できるMLLMを評価するために設計されたベンチマークである。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
コードはhttps://github.com/penghao-wu/vstar.comで入手できる。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Tell Me Where You Are: Multimodal LLMs Meet Place Recognition [11.421492098416538]
視覚的位置認識(VPR)にマルチモーダル大言語モデル(MLLM)を導入する。
我々のキーとなる設計は、視覚に基づく検索を用いて複数の候補を提案し、言語に基づく推論を利用して最終決定のために各候補を慎重に検査することである。
3つのデータセットから得られた結果から,VFMの汎用的視覚特徴とMLLMの推論能力の統合が,すでに有効な位置認識ソリューションを提供していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T12:59:46Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。