論文の概要: QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.05197v1
- Date: Thu, 07 Aug 2025 09:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.789615
- Title: QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering
- Title(参考訳): QA-Dragon:知識集約型視覚質問応答のためのクエリ対応動的RAGシステム
- Authors: Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li,
- Abstract要約: 本稿では,知識集約型VQAのためのクエリ対応動的RAGシステムQA-Dragonを提案する。
テキストと画像検索エージェントをハイブリッド化することにより,マルチモーダル,マルチターン,マルチホップ推論をサポートする。
KDDカップ2025におけるメタCRAG-MMチャレンジの枠組みを評価する。
- 参考スコア(独自算出の注目度): 27.567923098020586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. To address this limitation, we propose QA-Dragon, a Query-Aware Dynamic RAG System for Knowledge-Intensive VQA. Specifically, QA-Dragon introduces a domain router to identify the query's subject domain for domain-specific reasoning, along with a search router that dynamically selects optimal retrieval strategies. By orchestrating both text and image search agents in a hybrid setup, our system supports multimodal, multi-turn, and multi-hop reasoning, enabling it to tackle complex VQA tasks effectively. We evaluate our QA-Dragon on the Meta CRAG-MM Challenge at KDD Cup 2025, where it significantly enhances the reasoning performance of base models under challenging scenarios. Our framework achieves substantial improvements in both answer accuracy and knowledge overlap scores, outperforming baselines by 5.06% on the single-source task, 6.35% on the multi-source task, and 5.03% on the multi-turn task.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における幻覚の緩和に,外部知識を生成プロセスに組み込むことでRAG(Retrieval-Augmented Generation)を導入し,知識集約型視覚質問応答(VQA)のアプローチとして広く採用されている。
しかしながら、既存のRAGメソッドは通常、テキストまたはイメージを分離して取得し、マルチホップ推論や最新の事実知識を必要とする複雑なクエリに対処する能力を制限する。
この制限に対処するため,知識集約型VQAのためのクエリ対応動的RAGシステムQA-Dragonを提案する。
具体的には、QA-Dragonは、クエリの主題ドメインをドメイン固有の推論のために識別するドメインルータと、最適な検索戦略を動的に選択する検索ルータを導入する。
テキストと画像検索エージェントをハイブリッドな設定でオーケストレーションすることにより、マルチモーダル、マルチターン、マルチホップ推論をサポートし、複雑なVQAタスクに効果的に取り組むことができる。
我々は,KDDカップ2025におけるメタCRAG-MMチャレンジにおけるQA-Dragonの評価を行った。
本フレームワークは,解答精度と知識重複スコアの両面で大幅に向上し,シングルソースタスクでは5.06%,マルチソースタスクでは6.35%,マルチターンタスクでは5.03%のベースラインを達成している。
関連論文リスト
- mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering [29.5761347590239]
Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。
本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
論文 参考訳(メタデータ) (2025-08-07T12:22:50Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Enabling Collaborative Parametric Knowledge Calibration for Retrieval-Augmented Vision Question Answering [16.14877145354785]
KB-VQA (Vision Question Answering) システムは、外部知識ベースから取得した知識を用いて複雑な視覚的な質問に対処する。
協調的なパラメトリック知識キャリブレーションを用いた検索強化VQAフレームワークを提案する。
提案手法は,最先端モデルと競合する性能を実現し,精度が4.7%向上した。
論文 参考訳(メタデータ) (2025-04-05T05:42:12Z) - A Survey of Query Optimization in Large Language Models [10.255235456427037]
RAGは、動的に検索し、最新の関連情報を活用することによって、大規模言語モデルの限界を緩和する。
QOは重要な要素として現れ、RAGの検索段階の有効性を決定する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-12-23T13:26:04Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。
BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。
その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文 参考訳(メタデータ) (2024-10-16T01:57:56Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。