論文の概要: V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2312.14135v2
- Date: Tue, 26 Dec 2023 15:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:21:19.798347
- Title: V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs
- Title(参考訳): v*:マルチモーダルllmの中核機構としての誘導視覚探索
- Authors: Penghao Wu, Saining Xie
- Abstract要約: V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
- 参考スコア(独自算出の注目度): 34.211455081027964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When we look around and perform complex tasks, how we see and selectively
process what we see is crucial. However, the lack of this visual search
mechanism in current multimodal LLMs (MLLMs) hinders their ability to focus on
important visual details, especially when handling high-resolution and visually
crowded images. To address this, we introduce V*, an LLM-guided visual search
mechanism that employs the world knowledge in LLMs for efficient visual
querying. When combined with an MLLM, this mechanism enhances collaborative
reasoning, contextual understanding, and precise targeting of specific visual
elements. This integration results in a new MLLM meta-architecture, named Show,
sEArch, and TelL (SEAL). We further create V*Bench, a benchmark specifically
designed to evaluate MLLMs in their ability to process high-resolution images
and focus on visual details. Our study highlights the necessity of
incorporating visual search capabilities into multimodal systems. The code is
available https://github.com/penghao-wu/vstar.
- Abstract(参考訳): 複雑なタスクを振り返って実行するとき、見るものをどのように見て、選択的に処理するかが重要です。
しかし、現在のMLLM(Multimodal LLM)におけるこの視覚探索機構の欠如は、特に高解像度で視覚的に混み合った画像を扱う際に、重要な視覚的詳細に集中する能力を妨げている。
そこで我々は,llmにおける世界知識を効率的なビジュアルクエリに活用する,llm誘導ビジュアル検索機構であるv*を紹介する。
MLLMと組み合わせると、このメカニズムは協調的推論、文脈理解、特定の視覚要素の正確なターゲティングを促進する。
この統合により、Show、sEArch、TelL (SEAL) と名付けられたMLLMメタアーキテクチャが新たに導入された。
V*Benchは、高解像度画像を処理し、視覚的詳細に集中できるMLLMを評価するために設計されたベンチマークである。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
コードはhttps://github.com/penghao-wu/vstar.comで入手できる。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models [78.43468551763303]
我々は,動的ビデオタスクを扱うLLMによって駆動される包括的かつ概念的にエレガントなシステムであるドラモンGPTを考案した。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
3つのベンチマークでDoraemonGPTの有効性を広く評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [53.80712303306577]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - LMEye: An Interactive Perception Network for Large Language Models [43.160353427015025]
LMEyeは、プレイ・アンド・プラグの対話型知覚ネットワークを備えた人間のような眼である。
大規模言語モデルと外部視覚情報との動的相互作用を可能にする。
様々なマルチモーダルタスクにおけるゼロショット性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-05T17:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。