論文の概要: Visual Haystacks: Answering Harder Questions About Sets of Images
- arxiv url: http://arxiv.org/abs/2407.13766v1
- Date: Thu, 18 Jul 2024 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.257246
- Title: Visual Haystacks: Answering Harder Questions About Sets of Images
- Title(参考訳): Visual Haystacks: 画像セットに関する難しい質問に答える
- Authors: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan,
- Abstract要約: 本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
- 参考スコア(独自算出の注目度): 63.296342841358815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.
- Abstract(参考訳): 近年のLMM(Large Multimodal Models)の進歩は、単一画像の視覚的質問応答の分野で大きな進歩を遂げている。
しかし、これらのモデルは、大規模な写真アルバムを検索したり、インターネット上で特定の情報を見つけたり、衛星画像を通して環境変化を監視したりといった現実世界のシナリオと同様、大量の画像にまたがるクエリーを扱う場合、重大な課題に直面している。
本稿では,画像の集合と自然言語クエリが与えられた場合,関連性のある応答を生成することが目的である,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
我々は,視覚的検索と無関係な画像の集合に対する推論におけるLMMの能力を評価するために,"Visual Haystacks (VHs)"と呼ばれる新しい公開ベンチマークを提案する。
MIRAGE(Multi-Image Retrieval Augmented Generation)は,MIRAGE(Multi-Image Retrieval Augmented Generation)をベースライン法よりも効率と精度を向上したMIQAの課題に対処する,LMMに適した新しい検索/QAフレームワークである。
評価の結果、MIRAGEはVHsベンチマークで最大11%のクローズドソースGPT-4oモデルを超え、テキスト中心のマルチステージアプローチよりも最大3.4倍の効率向上を実現している。
関連論文リスト
- Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents [31.98555661903688]
大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。
それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。
我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-23T18:14:42Z) - MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。
入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。
次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。
最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-21T12:16:16Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文 参考訳(メタデータ) (2024-07-10T17:59:43Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。