論文の概要: Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents
- arxiv url: http://arxiv.org/abs/2411.16740v3
- Date: Fri, 06 Dec 2024 13:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:54:23.308936
- Title: Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents
- Title(参考訳): ドキュメントのヘイスタック:1000以上のドキュメントのパイルに関するビジョンランゲージの推論
- Authors: Jun Chen, Dannong Xu, Junjie Fei, Chun-Mei Feng, Mohamed Elhoseiny,
- Abstract要約: 大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。
それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。
我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
- 参考スコア(独自算出の注目度): 31.98555661903688
- License:
- Abstract: Large multimodal models (LMMs) have achieved impressive progress in vision-language understanding, yet they face limitations in real-world applications requiring complex reasoning over a large number of images. Existing benchmarks for multi-image question-answering are limited in scope, each question is paired with only up to 30 images, which does not fully capture the demands of large-scale retrieval tasks encountered in the real-world usages. To reduce these gaps, we introduce two document haystack benchmarks, dubbed DocHaystack and InfoHaystack, designed to evaluate LMM performance on large-scale visual document retrieval and understanding. Additionally, we propose V-RAG, a novel, vision-centric retrieval-augmented generation (RAG) framework that leverages a suite of multimodal vision encoders, each optimized for specific strengths, and a dedicated question-document relevance module. V-RAG sets a new standard, with a 9% and 11% improvement in Recall@1 on the challenging DocHaystack-1000 and InfoHaystack-1000 benchmarks, respectively, compared to the previous best baseline models. Additionally, integrating V-RAG with LMMs enables them to efficiently operate across thousands of images, yielding significant improvements on our DocHaystack and InfoHaystack benchmarks. Our code and datasets are available at https://github.com/Vision-CAIR/dochaystacks
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚言語理解において顕著な進歩を遂げているが、多数の画像に対して複雑な推論を必要とする現実のアプリケーションでは限界に直面している。
既存のマルチイメージ質問答えのベンチマークはスコープに限られており、各質問は最大30のイメージとペアリングされるが、これは現実世界で遭遇する大規模な検索タスクの要求を完全に把握するものではない。
これらのギャップを減らすために,DocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入する。
さらに,マルチモーダル・ビジョン・エンコーダのスイートを活用し,それぞれが特定の強度に最適化された,新しい視覚中心の検索拡張生成(RAG)フレームワークであるV-RAGと,専用の質問文書関連モジュールを提案する。
V-RAGは、DocHaystack-1000ベンチマークとInfoHaystack-1000ベンチマークで、Recall@1を9%と11%改善した新しい標準を設定している。
さらに、V-RAGとLMMを統合することで、数千のイメージを効率的に操作できるようになり、DocHaystackとInfoHaystackベンチマークで大幅に改善されました。
私たちのコードとデータセットはhttps://github.com/Vision-CAIR/dochaystacksで公開されています。
関連論文リスト
- MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。