Fugu-MT 論文翻訳(概要): PDF Retrieval Augmented Question Answering

論文の概要: PDF Retrieval Augmented Question Answering

arxiv url: http://arxiv.org/abs/2506.18027v1
Date: Sun, 22 Jun 2025 13:14:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.705787
Title: PDF Retrieval Augmented Question Answering
Title（参考訳）: PDF検索による質問に対する回答
Authors: Thi Thu Uyen Hoang, Viet Anh Nguyen,
Abstract要約: 本稿では,Retrieval Augmented Generation (RAG) フレームワークを用いた質問応答システム(QA)の進歩について述べる。我々は,複雑なマルチモーダル質問を効果的に解決する総合的なRAGベースのQAシステムの構築を目指している。
参考スコア（独自算出の注目度）: 14.617711623828248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an advancement in Question-Answering (QA) systems using a Retrieval Augmented Generation (RAG) framework to enhance information extraction from PDF files. Recognizing the richness and diversity of data within PDFs--including text, images, vector diagrams, graphs, and tables--poses unique challenges for existing QA systems primarily designed for textual content. We seek to develop a comprehensive RAG-based QA system that will effectively address complex multimodal questions, where several data types are combined in the query. This is mainly achieved by refining approaches to processing and integrating non-textual elements in PDFs into the RAG framework to derive precise and relevant answers, as well as fine-tuning large language models to better adapt to our system. We provide an in-depth experimental evaluation of our solution, demonstrating its capability to extract accurate information that can be applied to different types of content across PDFs. This work not only pushes the boundaries of retrieval-augmented QA systems but also lays a foundation for further research in multimodal data integration and processing.
Abstract（参考訳）: 本稿では,Retrieval Augmented Generation (RAG) フレームワークを用いた質問応答システム(QA)の進歩について述べる。 PDF内のデータの豊かさと多様性 - テキスト、画像、ベクトル図、グラフ、テーブルを含む - は、主にテキストコンテンツ用に設計された既存のQAシステムに固有の課題を提供する。我々は、複雑なマルチモーダルな質問に効果的に対処し、クエリに複数のデータ型が組み合わさった総合的なRAGベースのQAシステムを開発することを目指している。これは主に、PDFの非テクスチャ要素をRAGフレームワークに統合して、正確で関連する回答を導き出すアプローチを洗練し、システムに適応する大規模言語モデルを微調整することで実現される。提案手法の詳細な実験的評価を行い,PDFの異なるタイプのコンテンツに適用可能な正確な情報を抽出できることを実証する。この研究は、検索強化されたQAシステムの境界を推し進めるだけでなく、マルチモーダルデータの統合と処理のさらなる研究の基盤も築き上げている。

関連論文リスト

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs [14.395485027306739]
マルチドメイン2K人間アノテーション(real-pdfQA)と2K合成データセット(syn-pdfQA)について述べる。両データセットに品質と難易度フィルタを適用して評価し、有効なQAペアと挑戦的なQAペアを得る。
論文参考訳（メタデータ） (2026-01-05T17:15:26Z)
Leveraging Spreading Activation for Improved Document Retrieval in Knowledge-Graph-Based RAG Systems [0.0]
Retrieval-augmented Generation (RAG) システムは、複雑な推論タスクに必要な多段階の証拠を確実に回収し、接続するのに苦労する。標準的なRAGフレームワークのほとんどは、検索された全ての情報を、大きなテキストコーパスの様々な信頼性と相互接続性を見越して、等しく信頼できるものとみなしている。自動構築された知識グラフによって相互接続された文書のコーパスから情報を取得するために,拡散活性化アルゴリズムを用いた新しいRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-17T19:38:35Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Domain-Specific Data Generation Framework for RAG Adaptation [58.20906914537952]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
論文参考訳（メタデータ） (2025-10-13T09:59:49Z)
MSRS: Evaluating Multi-Source Retrieval-Augmented Generation [51.717139132190574]
多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-28T14:59:55Z)
Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文参考訳（メタデータ） (2025-04-13T06:55:33Z)
Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文参考訳（メタデータ） (2025-01-19T12:57:13Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。 RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文参考訳（メタデータ） (2024-10-21T12:21:49Z)
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文参考訳（メタデータ） (2024-04-19T09:00:05Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-01-04T16:16:14Z)
Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。検索中心の混合モード合成事前学習を行う。 OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文参考訳（メタデータ） (2022-10-11T07:04:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。