論文の概要: Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark
- arxiv url: http://arxiv.org/abs/2407.13766v4
- Date: Tue, 11 Mar 2025 17:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:16:57.922995
- Title: Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark
- Title(参考訳): Visual Haystacks: ビジョン中心のニードルイン・ア・ヘイスタックベンチマーク
- Authors: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
- 参考スコア(独自算出の注目度): 63.296342841358815
- License:
- Abstract: Large Multimodal Models (LMMs) have made significant strides in visual question-answering for single images. Recent advancements like long-context LMMs have allowed them to ingest larger, or even multiple, images. However, the ability to process a large number of visual tokens does not guarantee effective retrieval and reasoning for multi-image question answering (MIQA), especially in real-world applications like photo album searches or satellite imagery analysis. In this work, we first assess the limitations of current benchmarks for long-context LMMs. We address these limitations by introducing a new vision-centric, long-context benchmark, "Visual Haystacks (VHs)". We comprehensively evaluate both open-source and proprietary models on VHs, and demonstrate that these models struggle when reasoning across potentially unrelated images, perform poorly on cross-image reasoning, as well as exhibit biases based on the placement of key information within the context window. Towards a solution, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), an open-source, lightweight visual-RAG framework that processes up to 10k images on a single 40G A100 GPU -- far surpassing the 1k-image limit of contemporary models. MIRAGE demonstrates up to 13% performance improvement over existing open-source LMMs on VHs, sets a new state-of-the-art on the RetVQA multi-image QA benchmark, and achieves competitive performance on single-image QA with state-of-the-art LMMs. Our dataset, model, and code are available at: https://visual-haystacks.github.io.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
長文LMMのような最近の進歩により、より大きく、あるいは複数の画像を取り込むことが可能になった。
しかし、多数の視覚トークンを処理できることは、特に写真アルバム検索や衛星画像解析のような現実世界のアプリケーションにおいて、MIQA(Multi-image Question answering)の効果的な検索と推論を保証するものではない。
本研究では,長文LMMに対する現在のベンチマークの限界をまず評価する。
これらの制限に対処するため、視覚中心の長文ベンチマーク"Visual Haystacks (VHs)"を導入する。
我々は、VHs上でのオープンソースモデルとプロプライエタリモデルの両方を総合的に評価し、これらのモデルが、潜在的に無関係な画像を推論する際に苦戦し、クロスイメージ推論では性能が悪く、コンテキストウィンドウ内のキー情報の配置に基づくバイアスを示すことを実証した。
MIRAGE(Multi-Image Retrieval Augmented Generation)は、オープンソースの軽量ビジュアルRAGフレームワークで、単一の40G A100 GPU上で最大10Kイメージを処理する。
MIRAGEは、VHs上の既存のオープンソースLMMよりも最大13%の性能向上を示し、RetVQAマルチイメージQAベンチマークに新しい最先端の技術をセットし、最先端のLMMを持つシングルイメージQA上での競争性能を達成する。
私たちのデータセット、モデル、コードは、https://visual-haystacks.github.io.comで利用可能です。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents [31.98555661903688]
大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。
それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。
我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-23T18:14:42Z) - MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。
入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。
次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。
最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-21T12:16:16Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文 参考訳(メタデータ) (2024-07-10T17:59:43Z) - Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。
画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。
我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2024-06-17T05:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。