論文の概要: HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering
- arxiv url: http://arxiv.org/abs/2605.29606v1
- Date: Thu, 28 May 2026 08:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.08082
- Title: HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering
- Title(参考訳): HiKEY: オープンドメイン文書質問回答のための階層型マルチモーダル検索
- Authors: Joongmin Shin, Gyuho Shim, Jeongbae Park, Jaehyung Seo, Heuiseok Lim,
- Abstract要約: HiKEYは階層木に基づくマルチモーダル検索フレームワークであり、文書階層を1級検索信号に高める。
ODQAベンチマークの実験では、HiKEYはページベースとチャンクベースのベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 19.052998569565627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) for document-based Open-domain Question Answering (ODQA) on large-scale industrial corpora faces two critical bottlenecks: routing failure in locating the correct document and evidence fragmentation in integrating scattered information. Existing approaches relying on flat text chunks or page-level images inherently struggle to (i) precisely pinpoint the target document among thousands of candidates and (ii) organically connect multimodal evidence, such as tables and figures, within a limited token budget. To address these challenges, we propose HiKEY, a hierarchical tree-based multimodal retrieval framework that elevates document hierarchy to a first-class retrieval signal. Instead of simple chunking, HiKEY reconstructs a logical heterogeneous graph via Document Hierarchical Parsing (DHP), explicitly encoding parent-child relationships. Adopting a hierarchical coarse-to-fine strategy, the framework (1) performs global routing to rapidly prune the search space using hierarchical indexing, and (2) conducts fine-grained retrieval to rank sections by employing a multimodal fusion strategy that captures the most discriminative evidence. Finally, HiKEY assembles a token-efficient evidence subgraph via a hybrid structural-semantic packing strategy. Experiments on ODQA benchmarks demonstrate that HiKEY significantly outperforms page- and chunk-based baselines, improving retrieval recall by up to 12.9% and end-to-end QA performance by up to 6.8%.
- Abstract(参考訳): 大規模産業コーパスにおける文書ベースのオープンドメイン質問回答(ODQA)のための検索強化世代(RAG)は、正しい文書の配置におけるルーティング障害と、散在した情報の統合における証拠の断片化という2つの重大なボトルネックに直面している。
平らなテキストチャンクやページレベルのイメージに依存する既存のアプローチは、本質的に苦労しています。
一 数千の候補者のうちの的書類を的確に特定し、
(ii) 限られたトークン予算内に、表や数字などのマルチモーダルな証拠を有機的に接続すること。
これらの課題に対処するために,文書階層を1級検索信号に高める階層木に基づく多モーダル検索フレームワークであるHiKEYを提案する。
単純なチャンキングの代わりに、HiKEYは文書階層解析 (Document Hierarchical Parsing, DHP) を通じて論理的不均一グラフを再構成し、親子関係を明示的に符号化する。
階層的な粗大な戦略を採用し、(1)階層的な索引付けを用いて検索空間を高速にプーンするためのグローバルなルーティングを行い、(2)最も識別性の高い証拠を捉えたマルチモーダル融合戦略を用いて、ランキングセクションへのきめ細かい検索を行う。
最後に、HiKEYは、ハイブリッド構造-セマンティックパッキング戦略を介して、トークン効率の証明部分グラフを組み立てる。
ODQAベンチマークの実験では、HiKEYはページベースとチャンクベースのベースラインを大幅に上回り、検索リコールを最大12.9%改善し、エンドツーエンドQAのパフォーマンスを最大6.8%向上した。
関連論文リスト
- Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation [3.338186852016847]
$-RAGは2つの主要なコンポーネントを持つツリーRAGフレームワークである。
トークンレベルの質問応答からドキュメントレベルの要約まで,さまざまなタスクをサポートする。
RAPTORを25.9%、HippoRAG 2を7.4%上回っている。
論文 参考訳(メタデータ) (2026-05-01T09:06:23Z) - DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion [8.523351031498839]
クエリ生成によるドキュメント拡張(DE)は、スパース検索において語彙ミスマッチに取り組むが、制限に直面している。
ドキュメントの潜在トピックをまず推測することでクエリ生成を構造化するDEフレームワークであるDoc2Query++を紹介します。
本稿では,テキストとクエリ信号を分離し,高密度設定における性能を向上させるDual-Index Fusion戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:07:48Z) - Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe [42.35197658021889]
一致するクエリとドキュメントのペアを類似したベクトル表現に埋め込んだデュアルエンコーダ(DE)モデルは、情報検索に広く利用されている。
本稿では,階層的検索(HR)の文脈において,文書集合が階層構造を持ち,クエリに適合する文書がすべてその祖先であるような制約について検討する。
近い文書の性能を犠牲にすることなく、長距離検索を大幅に改善するプレトレインファインチューンレシピを提案する。
論文 参考訳(メタデータ) (2025-09-19T20:35:58Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。