論文の概要: Hybrid Retrieval-Augmented Generation for Robust Multilingual Document Question Answering
- arxiv url: http://arxiv.org/abs/2512.12694v1
- Date: Sun, 14 Dec 2025 13:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.38731
- Title: Hybrid Retrieval-Augmented Generation for Robust Multilingual Document Question Answering
- Title(参考訳): ロバストな多言語文書質問応答のためのハイブリッド検索拡張生成
- Authors: Anthony Mudet, Souhail Bakkali,
- Abstract要約: 大規模なデジタル化のイニシアチブは、多くの歴史新聞を解き放った。
雑音の多い歴史文書に対する質問応答に特化して設計された多言語検索型拡張生成パイプラインを開発し,評価する。
- 参考スコア(独自算出の注目度): 0.3376269351435395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale digitization initiatives have unlocked massive collections of historical newspapers, yet effective computational access remains hindered by OCR corruption, multilingual orthographic variation, and temporal language drift. We develop and evaluate a multilingual Retrieval-Augmented Generation pipeline specifically designed for question answering on noisy historical documents. Our approach integrates: (i) semantic query expansion and multi-query fusion using Reciprocal Rank Fusion to improve retrieval robustness against vocabulary mismatch; (ii) a carefully engineered generation prompt that enforces strict grounding in retrieved evidence and explicit abstention when evidence is insufficient; and (iii) a modular architecture enabling systematic component evaluation. We conduct comprehensive ablation studies on Named Entity Recognition and embedding model selection, demonstrating the importance of syntactic coherence in entity extraction and balanced performance-efficiency trade-offs in dense retrieval. Our end-to-end evaluation framework shows that the pipeline generates faithful answers for well-supported queries while correctly abstaining from unanswerable questions. The hybrid retrieval strategy improves recall stability, particularly benefiting from RRF's ability to smooth performance variance across query formulations. We release our code and configurations at https://anonymous.4open.science/r/RAGs-C5AE/, providing a reproducible foundation for robust historical document question answering.
- Abstract(参考訳): 大規模なデジタル化イニシアチブは、歴史的新聞の膨大なコレクションをアンロックしてきたが、OCRの腐敗、多言語的正書法の変化、時間的言語ドリフトによって、効果的な計算アクセスが妨げられている。
雑音の多い歴史文書に対する質問応答に特化して設計された多言語検索型拡張生成パイプラインを開発し,評価する。
私たちのアプローチは以下のとおりです。
一 語彙ミスマッチに対する検索堅牢性を向上させるために相互ランクフュージョンを用いた意味クエリ拡張及びマルチクエリフュージョン
二 回収された証拠を厳格に根拠づけし、証拠が不十分なときは、明快な棄却を強制する慎重に整備された世代プロンプト
(iii) 系統的なコンポーネント評価を可能にするモジュールアーキテクチャ。
我々は,エンティティ認識と埋め込みモデル選択に関する総合的アブレーション研究を行い,エンティティ抽出における構文コヒーレンスの重要性と高密度検索における性能効率トレードオフのバランスを示す。
我々のエンドツーエンド評価フレームワークは、パイプラインがよくサポートされたクエリに対する忠実な回答を生成しながら、解決不可能な質問を正しく排除していることを示している。
ハイブリッド検索戦略はリコール安定性を改善し、特にクエリの定式化におけるパフォーマンスのばらつきを円滑に行うRFFの利点を生かしている。
コードと設定はhttps://anonymous.4open.science/r/RAGs-C5AE/で公開しています。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Test-time Corpus Feedback: From Retrieval to RAG [21.517949407443453]
Retrieval-Augmented Generation (RAG) は知識集約型NLPタスクの標準フレームワークとして登場した。
ほとんどのRAGパイプラインは、検索と推論を独立したコンポーネントとして扱い、ドキュメントを一度取り出し、さらに相互作用することなく回答を生成する。
情報検索(IR)とNLPのコミュニティにおける最近の研究は、フィードバックを取り入れた適応的検索とランキング手法を導入して、このギャップを埋め始めている。
論文 参考訳(メタデータ) (2025-08-21T10:57:38Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。