Fugu-MT 論文翻訳(概要): Fine-Grained Retrieval-Augmented Generation for Visual Question Answering

論文の概要: Fine-Grained Retrieval-Augmented Generation for Visual Question Answering

arxiv url: http://arxiv.org/abs/2502.20964v2
Date: Fri, 11 Apr 2025 16:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 15:34:41.538857
Title: Fine-Grained Retrieval-Augmented Generation for Visual Question Answering
Title（参考訳）: 視覚質問応答のための微粒化検索生成法
Authors: Zhengxuan Zhang, Yin Wu, Yuyu Luo, Nan Tang,
Abstract要約: VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
参考スコア（独自算出の注目度）: 12.622529359686016
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Visual Question Answering (VQA) focuses on providing answers to natural language questions by utilizing information from images. Although cutting-edge multimodal large language models (MLLMs) such as GPT-4o achieve strong performance on VQA tasks, they frequently fall short in accessing domain-specific or the latest knowledge. To mitigate this issue, retrieval-augmented generation (RAG) leveraging external knowledge bases (KBs), referred to as KB-VQA, emerges as a promising approach. Nevertheless, conventional unimodal retrieval techniques, which translate images into textual descriptions, often result in the loss of critical visual details. This study presents fine-grained knowledge units, which merge textual snippets with entity images stored in vector databases. Furthermore, we introduce a knowledge unit retrieval-augmented generation framework (KU-RAG) that integrates fine-grained retrieval with MLLMs. The proposed KU-RAG framework ensures precise retrieval of relevant knowledge and enhances reasoning capabilities through a knowledge correction chain. Experimental findings demonstrate that our approach significantly boosts the performance of leading KB-VQA methods, achieving an average improvement of approximately 3% and up to 11% in the best case.
Abstract（参考訳）: VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。 GPT-4oのような最先端のマルチモーダル大言語モデル(MLLM)は、VQAタスクで高い性能を発揮するが、ドメイン固有性や最新の知識にアクセスできないことが多い。この問題を緩和するために、KB-VQAと呼ばれる外部知識ベース(KB)を活用する検索強化世代(RAG)が期待できるアプローチとして出現する。それにもかかわらず、画像をテキスト記述に変換する従来の一助的検索技術は、しばしば重要な視覚的詳細が失われる。本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。さらに,細粒度検索をMLLMと統合した知識単位検索拡張生成フレームワーク(KU-RAG)を導入する。提案したKU-RAGフレームワークは、関連する知識の正確な検索を保証し、知識補正チェーンを介して推論能力を向上させる。実験の結果,本手法はKB-VQA法の性能を著しく向上させ,最大で3%,最大で11%向上した。

関連論文リスト

Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。 EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。 EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文参考訳（メタデータ） (2025-12-23T08:14:44Z)
ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文参考訳（メタデータ） (2025-10-20T17:53:23Z)
mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering [29.5761347590239]
Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
論文参考訳（メタデータ） (2025-08-07T12:22:50Z)
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-09T14:00:57Z)
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance [0.9208007322096533]
知識に基づく視覚質問回答法(KB-VQA)は、画像に表される明示的なコンテンツを超えて、情報によって推論を要求するタスクに焦点を当てる。近年のアプローチでは,Large Language Models (LLM) を暗黙の知識源として活用している。グラウンディングキャプション誘導知識に基づく視覚質問応答(GC-KBVQA)と呼ばれる新しい4段階のフレームワークを紹介する。イノベーションには、ジェネリックな記述を超えて、コンパクトで詳細でコンテキストに富んだ情報を持つために、質問認識キャプションを生成することが含まれる。
論文参考訳（メタデータ） (2025-05-25T23:00:30Z)
OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [17.75545831558775]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文参考訳（メタデータ） (2025-05-10T14:24:41Z)
A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task [15.932332484902103]
知識に基づく視覚質問回答(KB-VQA)の拡張型視覚質問回答(VQA) 現在、既存のKB-VQAメソッドを体系的に整理し、レビューする総合的な調査は存在しない。
論文参考訳（メタデータ） (2025-04-24T13:37:25Z)
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models [51.47994645529258]
本稿では,問合せをGNNアグリゲーションに組み込んでKG関連性を動的に評価するQAP(QA-Aware Knowledge Graph Prompting)を提案する。実験の結果、QAPは複数のデータセットで最先端の手法よりも優れており、その有効性を強調している。
論文参考訳（メタデータ） (2025-03-30T17:09:11Z)
Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) を拡張するための一般的なアプローチである Visual-RAGは、証拠として視覚知識を抽出するために、テキスト・ツー・イメージ検索と関連する手がかり画像の統合が必要である。
論文参考訳（メタデータ） (2025-02-23T16:23:50Z)
Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文参考訳（メタデータ） (2024-10-11T14:03:29Z)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (2024-10-10T17:55:02Z)
EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。 The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文参考訳（メタデータ） (2024-07-17T16:55:42Z)
Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。 DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-22T07:44:20Z)
A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。 KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。 KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。 CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文参考訳（メタデータ） (2024-03-11T03:42:03Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文参考訳（メタデータ） (2023-12-20T02:35:18Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models [19.85526116658481]
本稿では,新規かつ簡易な生成検索KBQAフレームワークであるChatKBQAを紹介する。実験の結果,ChatKBQAは標準KBQAデータセット上で新たな最先端性能を実現することがわかった。この研究は、LLMと知識グラフを組み合わせるための新しいパラダイムとして、解釈可能および知識要求型質問応答のパラダイムと見なすこともできる。
論文参考訳（メタデータ） (2023-10-13T09:45:14Z)
KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases [55.942342665806656]
KnowledGPTは、様々な知識ベースで大きな言語モデルをブリッジするための包括的なフレームワークである。検索プロセスでは思考プロンプトプログラムを使用し,KBの検索言語をコード形式で生成する。 KnowledGPTは、個々のユーザ要求に合わせて、知識をパーソナライズされたKBに格納する機能を提供する。
論文参考訳（メタデータ） (2023-08-17T13:07:00Z)
A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文参考訳（メタデータ） (2022-06-30T02:35:04Z)
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文参考訳（メタデータ） (2022-05-23T17:55:34Z)
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文参考訳（メタデータ） (2021-09-10T17:51:06Z)
Contextualized Knowledge-aware Attentive Neural Network: Enhancing Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。 KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習するコンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文参考訳（メタデータ） (2021-04-12T05:52:20Z)
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文参考訳（メタデータ） (2021-01-15T08:37:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。