論文の概要: Revolutionizing Retrieval-Augmented Generation with Enhanced PDF
Structure Recognition
- arxiv url: http://arxiv.org/abs/2401.12599v1
- Date: Tue, 23 Jan 2024 09:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:20:05.575267
- Title: Revolutionizing Retrieval-Augmented Generation with Enhanced PDF
Structure Recognition
- Title(参考訳): PDF構造認識の強化による検索機能強化
- Authors: Demiao Lin (chatdoc.com)
- Abstract要約: 主要な基盤モデル企業が Embedding と Chat API インターフェースをオープンし,LangChain などのフレームワークがすでに RAG プロセスを統合している。
本稿は, 高品質テキストコーパスにアクセスする前提に依存している。
パン光学およびピンポイントPDFを備えたRAGシステムChatDOCは,より正確で完全なセグメントを検索し,より良い回答を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rapid development of Large Language Models (LLMs),
Retrieval-Augmented Generation (RAG) has become a predominant method in the
field of professional knowledge-based question answering. Presently, major
foundation model companies have opened up Embedding and Chat API interfaces,
and frameworks like LangChain have already integrated the RAG process. It
appears that the key models and steps in RAG have been resolved, leading to the
question: are professional knowledge QA systems now approaching perfection?
This article discovers that current primary methods depend on the premise of
accessing high-quality text corpora. However, since professional documents are
mainly stored in PDFs, the low accuracy of PDF parsing significantly impacts
the effectiveness of professional knowledge-based QA. We conducted an empirical
RAG experiment across hundreds of questions from the corresponding real-world
professional documents. The results show that, ChatDOC, a RAG system equipped
with a panoptic and pinpoint PDF parser, retrieves more accurate and complete
segments, and thus better answers. Empirical experiments show that ChatDOC is
superior to baseline on nearly 47% of questions, ties for 38% of cases, and
falls short on only 15% of cases. It shows that we may revolutionize RAG with
enhanced PDF structure recognition.
- Abstract(参考訳): 大規模言語モデル(llms)の急速な発展に伴い、検索型生成(rag)は専門知識に基づく質問応答の分野において主流となっている。
現在、主要な基盤モデル企業が Embedding と Chat API インターフェースをオープンしており、LangChain のようなフレームワークはすでに RAG プロセスを統合している。
ragの重要なモデルとステップが解決されたように思える。 プロフェッショナルな知識qaシステムは、今、完璧に近づいているのだろうか?
本稿では, 高品質テキストコーパスにアクセスする前提に依存している。
しかし、専門文書は主にPDFに格納されているため、PDF解析の精度が低いことは専門知識に基づくQAの有効性に大きな影響を及ぼす。
我々は実世界のプロフェッショナル文書から数百の質問に対して実験的なRAG実験を行った。
その結果, panoptic と pinpoint の pdf パーサを備えた rag システムである chatdoc が,より正確かつ完全なセグメントを検索し,よりよい回答を得ることができた。
実証実験によれば、chatdocは質問の47%でベースラインよりも優れており、ケースの38%が関連しており、ケースの15%が不足している。
PDF構造認識の強化によりRAGに革命をもたらす可能性が示唆された。
関連論文リスト
- Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - Enhancing Retrieval in QA Systems with Derived Feature Association [0.0]
Retrieval augmented generation (RAG) は、長い文脈質問応答(QA)システムにおいて標準となっている。
我々は、AI派生文書(RAIDD)からレトリーバル(Retrieval)と呼ばれるRAGシステムへの新たな拡張を提案する。
論文 参考訳(メタデータ) (2024-10-02T05:24:49Z) - Towards Fair RAG: On the Impact of Fair Ranking in Retrieval-Augmented Generation [53.285436927963865]
本稿では,公正ランキングと統合されたRAGシステムの最初の体系的評価について述べる。
本稿では,RAGシステムで活用されるランキングにおいて,各項目の公正な露出を測定することに焦点を当てる。
以上の結果から,RAGシステムは高い世代品質を維持でき,多くの場合,従来のRAGシステムよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T23:10:04Z) - A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation [4.359511178431438]
Retrieval-Augmented Generation (RAG)は、検索機構を統合することで生成モデルを強化する。
その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理する上で、大きな課題に直面している。
本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:31:37Z) - A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning [13.112610550392537]
Retrieval-augmented Generation (RAG) は、大規模言語モデルでその精度を高め、外部知識ベースを統合することで幻覚を低減できるフレームワークである。
本稿では,検索品質,拡張推論能力,精巧な数値能力など,総合的な最適化によって強化されたハイブリッドRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-08-09T15:53:55Z) - Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA [5.0108982850526]
検索拡張生成(RAG)は、外部データベースから事実情報を抽出することにより、生成AIモデルの精度と信頼性を高める。
本稿では、EDAツールドキュメンテーションQAのための3つのドメイン固有のテクニックとともに、カスタマイズされたRAGフレームワークを提案する。
我々は,高度なRTL-to-GDSII設計プラットフォームであるOpenROADのドキュメントQA評価ベンチマークであるORD-QAを開発し,リリースした。
論文 参考訳(メタデータ) (2024-07-22T03:44:27Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - Retrieving and Reading: A Comprehensive Survey on Open-domain Question
Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。
Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。
次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文 参考訳(メタデータ) (2021-01-04T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。