論文の概要: Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries
- arxiv url: http://arxiv.org/abs/2502.16636v2
- Date: Fri, 15 Aug 2025 09:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.149276
- Title: Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries
- Title(参考訳): Visual-RAG:ビジュアル知識集約型クエリのためのテキストから画像への検索生成のベンチマーク
- Authors: Yin Wu, Quanyu Long, Jing Li, Jianfei Yu, Wenya Wang,
- Abstract要約: Retrieval-augmented Generation (RAG)は、知識集約的な質問に対処するために、外部知識で大きな言語モデルを拡張する。
Visual-RAGは、視覚的に根ざした知識集約的な質問を対象とする質問回答ベンチマークである。
我々は,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
- 参考スコア(独自算出の注目度): 30.692007887121278
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) is a paradigm that augments large language models (LLMs) with external knowledge to tackle knowledge-intensive question answering. While several benchmarks evaluate Multimodal LLMs (MLLMs) under Multimodal RAG settings, they predominantly retrieve from textual corpora and do not explicitly assess how models exploit visual evidence during generation. Consequently, there still lacks benchmark that isolates and measures the contribution of retrieved images in RAG. We introduce Visual-RAG, a question-answering benchmark that targets visually grounded, knowledge-intensive questions. Unlike prior work, Visual-RAG requires text-to-image retrieval and the integration of retrieved clue images to extract visual evidence for answer generation. With Visual-RAG, we evaluate 5 open-source and 3 proprietary MLLMs, showcasing that images provide strong evidence in augmented generation. However, even state-of-the-art models struggle to efficiently extract and utilize visual knowledge. Our results highlight the need for improved visual retrieval, grounding, and attribution in multimodal RAG systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、言語モデル(LLM)を外部知識で拡張し、知識集約型質問応答に対処するパラダイムである。
いくつかのベンチマークでは、Multimodal RAG設定下でMLLM(Multimodal LLM)を評価するが、主にテキストコーパスから取得し、生成時にモデルがどのように視覚的エビデンスを利用するかを明示的に評価していない。
その結果、RAGで取得した画像のコントリビューションを分離し、測定するベンチマークがまだ欠如している。
視覚的に基礎があり、知識集約的な質問を対象とする質問回答ベンチマークであるVisual-RAGを紹介する。
以前の作業とは異なり、Visual-RAGは、回答生成のための視覚的証拠を抽出するために、テキスト・ツー・イメージ検索と、検索した手がかり画像の統合を必要とする。
Visual-RAGでは,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
しかし、最先端のモデルでさえ、視覚的知識を効率的に抽出し活用するのに苦労している。
その結果,マルチモーダルRAGシステムにおける視覚検索,接地,帰属性の改善の必要性が浮き彫りになった。
関連論文リスト
- MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - A Survey of Multimodal Retrieval-Augmented Generation [3.9616308910160445]
MRAG(Multimodal Retrieval-Augmented Generation)は、マルチモーダルデータ(テキスト、画像、ビデオ)を検索および生成プロセスに統合することにより、大規模言語モデル(LLM)を強化する。
近年の研究では、MRAGは視覚とテキストの両方の理解を必要とするシナリオにおいて、従来の検索・拡張生成(RAG)よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T02:43:09Z) - Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - Fine-Grained Retrieval-Augmented Generation for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (2024-10-10T17:55:02Z) - GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。
GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。
我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文 参考訳(メタデータ) (2024-09-23T21:42:47Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。