Fugu-MT 論文翻訳(概要): Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark

論文の概要: Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark

arxiv url: http://arxiv.org/abs/2407.13766v2
Date: Thu, 10 Oct 2024 21:03:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 20:01:00.722171
Title: Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark
Title（参考訳）: Visual Haystacks: ビジョン中心のニードルイン・ア・ヘイスタックベンチマーク
Authors: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan,
Abstract要約: 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
参考スコア（独自算出の注目度）: 63.296342841358815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Multimodal Models (LMMs) have made significant strides in visual question-answering for single images. Recent advancements like long-context LMMs have allowed them to ingest larger, or even multiple, images. However, the ability to process a large number of visual tokens does not guarantee effective retrieval and reasoning for multi-image question answering (MIQA), especially in real-world applications like photo album searches or satellite imagery analysis. In this work, we first assess the limitations of current benchmarks for long-context LMMs. We address these limitations by introducing a new vision-centric, long-context benchmark, "Visual Haystacks (VHs)". We comprehensively evaluate both open-source and proprietary models on VHs, and demonstrate that these models struggle when reasoning across potentially unrelated images, perform poorly on cross-image reasoning, as well as exhibit biases based on the placement of key information within the context window. Towards a solution, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), an open-source, lightweight visual-RAG framework that processes up to 10k images on a single 40G A100 GPU -- far surpassing the 1k-image limit of contemporary models. MIRAGE demonstrates up to 13% performance improvement over existing open-source LMMs on VHs, sets a new state-of-the-art on the RetVQA multi-image QA benchmark, and achieves competitive performance on single-image QA with state-of-the-art LMMs.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。長文LMMのような最近の進歩により、より大きく、あるいは複数の画像を取り込むことが可能になった。しかし、多数の視覚トークンを処理できることは、特に写真アルバム検索や衛星画像解析のような現実世界のアプリケーションにおいて、MIQA(Multi-image Question answering)の効果的な検索と推論を保証するものではない。本研究では,長文LMMに対する現在のベンチマークの限界をまず評価する。これらの制限に対処するため、視覚中心の長文ベンチマーク"Visual Haystacks (VHs)"を導入する。我々は、VHs上でのオープンソースモデルとプロプライエタリモデルの両方を総合的に評価し、これらのモデルが、潜在的に無関係な画像を推論する際に苦戦し、クロスイメージ推論では性能が悪く、コンテキストウィンドウ内のキー情報の配置に基づくバイアスを示すことを実証した。 MIRAGE(Multi-Image Retrieval Augmented Generation)は、オープンソースの軽量ビジュアルRAGフレームワークで、単一の40G A100 GPU上で最大10Kイメージを処理する。 MIRAGEは、VHs上の既存のオープンソースLMMよりも最大13%の性能向上を示し、RetVQAマルチイメージQAベンチマークに新しい最先端の技術をセットし、最先端のLMMを持つシングルイメージQA上での競争性能を達成する。

関連論文リスト

MIEB: Massive Image Embedding Benchmark [12.080155288744594]
本稿では、画像と画像テキストの埋め込みモデルの性能を評価するために、MIEB(Massive Image Embedding Benchmark)を提案する。 MIEBは、130のタスクにまたがる38の言語にまたがる。ベンチマークで50のモデルをベンチマークしたところ、すべてのタスクカテゴリで1つのメソッドが支配的でないことが分かりました。
論文参考訳（メタデータ） (2025-04-14T17:54:28Z)
ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。 LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文参考訳（メタデータ） (2025-03-06T14:00:59Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents [31.98555661903688]
大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
論文参考訳（メタデータ） (2024-11-23T18:14:42Z)
MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
論文参考訳（メタデータ） (2024-11-21T12:16:16Z)
AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。 AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文参考訳（メタデータ） (2024-09-20T10:50:21Z)
MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-08-26T19:26:50Z)
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。 MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文参考訳（メタデータ） (2024-08-05T17:56:41Z)
MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文参考訳（メタデータ） (2024-07-21T21:22:58Z)
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文参考訳（メタデータ） (2024-07-10T17:59:43Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文参考訳（メタデータ） (2024-01-05T00:26:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。