論文の概要: HKRAG: Holistic Knowledge Retrieval-Augmented Generation Over Visually-Rich Documents
- arxiv url: http://arxiv.org/abs/2511.20227v1
- Date: Tue, 25 Nov 2025 11:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.439442
- Title: HKRAG: Holistic Knowledge Retrieval-Augmented Generation Over Visually-Rich Documents
- Title(参考訳): HKRAG:ビジュアルリッチなドキュメントに関するホロスティックな知識検索モデル
- Authors: Anyang Tong, Xiang Niu, ZhiPing Liu, Chang Tian, Yanyan Wei, Zenglin Shi, Meng Wang,
- Abstract要約: 本稿では,HKRAGを提案する。HKRAGは2つの知識タイプを明示的にキャプチャし,統合するために設計された,新しい総合的なRAGフレームワークである。
本フレームワークは,(1)有意な知識と細書知識を個別にモデル化し,クエリ関連情報検索を確保するための明示的なマスキング戦略を利用するハイブリッドマスキング型ホロスティック検索,(2)初期回答の不確かさを動的に評価し,最適な応答生成のために2つの異なる知識ストリームを統合する方法を積極的に決定する不確実性誘導エージェント生成の2つの重要なコンポーネントを特徴とする。
- 参考スコア(独自算出の注目度): 18.42875699937102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal Retrieval-Augmented Generation (RAG) methods for visually rich documents (VRD) are often biased towards retrieving salient knowledge(e.g., prominent text and visual elements), while largely neglecting the critical fine-print knowledge(e.g., small text, contextual details). This limitation leads to incomplete retrieval and compromises the generator's ability to produce accurate and comprehensive answers. To bridge this gap, we propose HKRAG, a new holistic RAG framework designed to explicitly capture and integrate both knowledge types. Our framework features two key components: (1) a Hybrid Masking-based Holistic Retriever that employs explicit masking strategies to separately model salient and fine-print knowledge, ensuring a query-relevant holistic information retrieval; and (2) an Uncertainty-guided Agentic Generator that dynamically assesses the uncertainty of initial answers and actively decides how to integrate the two distinct knowledge streams for optimal response generation. Extensive experiments on open-domain visual question answering benchmarks show that HKRAG consistently outperforms existing methods in both zero-shot and supervised settings, demonstrating the critical importance of holistic knowledge retrieval for VRD understanding.
- Abstract(参考訳): 視覚的にリッチなドキュメント(VRD)のための既存のマルチモーダル検索・拡張生成法(RAG)は、しばしば顕著な知識(例えば、顕著なテキストや視覚的要素)を取得することに偏りがあるが、重要な微細印刷知識(例えば、小さなテキスト、文脈的詳細)は無視される。
この制限は不完全な検索につながり、ジェネレータが正確で包括的な答えを生成できる能力を損なう。
このギャップを埋めるために、我々はHKRAGという新しい総合的なRAGフレームワークを提案します。
本フレームワークは,(1)有意な知識と細書知識を個別にモデル化し,クエリ関連情報検索を確保するための明示的なマスキング戦略を利用するハイブリッドマスキング型ホロスティック検索,(2)初期回答の不確かさを動的に評価し,最適な応答生成のために2つの異なる知識ストリームを統合する方法を積極的に決定する不確実性誘導エージェント生成の2つの重要なコンポーネントを特徴とする。
オープンドメイン視覚質問応答ベンチマークの大規模な実験により、HKRAGはゼロショットと教師付きセッティングの両方において既存の手法を一貫して上回り、VRD理解のための総合的知識検索の重要な重要性を示している。
関連論文リスト
- Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering [8.830228556155673]
MI-RAGは、推論を利用して検索を強化し、知識合成を取り入れて理解を深めるフレームワークである。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験は、MI-RAGが検索リコールと回答精度の両方を著しく改善していることを示している。
論文 参考訳(メタデータ) (2025-08-31T11:14:54Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [31.69320295943039]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
まず,マルチモーダルデータ断片からなるきめ細かい知識ユニットを紹介する。
第2に,細粒度検索をMLLMとシームレスに統合する知識単位検索拡張生成フレームワーク(KU-RAG)を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。