Fugu-MT 論文翻訳(概要): HybridRAG: A Practical LLM-based ChatBot Framework based on Pre-Generated Q&A over Raw Unstructured Documents

論文の概要: HybridRAG: A Practical LLM-based ChatBot Framework based on Pre-Generated Q&A over Raw Unstructured Documents

arxiv url: http://arxiv.org/abs/2602.11156v1
Date: Sun, 30 Nov 2025 07:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.504454
Title: HybridRAG: A Practical LLM-based ChatBot Framework based on Pre-Generated Q&A over Raw Unstructured Documents
Title（参考訳）: HybridRAG: 生来の非構造化ドキュメントに対する事前生成Q&Aに基づく実用的LLMベースのチャットボットフレームワーク
Authors: Sungmoon Kim, Hyuna Jeon, Dahye Kim, Mingyu Kim, Dong-Kyu Chae, Jiwoong Kim,
Abstract要約: HybridRAGは、複雑なレイアウトを含む未構造化のPDF文書を取り込みます。大規模言語モデルを用いた質問応答(QA)知識ベースを事前生成する。クエリ時に、ユーザの質問は、このQAバンクと一致して、即時回答を取得する。
参考スコア（独自算出の注目度）: 12.725012121582816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful approach for grounding Large Language Model (LLM)-based chatbot responses on external knowledge. However, existing RAG studies typically assume well-structured textual sources (e.g. Wikipedia or curated datasets) and perform retrieval and generation at query time, which can limit their applicability in real-world chatbot scenarios. In this paper, we present HybridRAG, a novel and practical RAG framework towards more accurate and faster chatbot responses. First, HybridRAG ingests raw, unstructured PDF documents containing complex layouts (text, tables, figures) via Optical Character Recognition (OCR) and layout analysis, and convert them into hierarchical text chunks. Then, it pre-generates a plausible question-answer (QA) knowledge base from the organized chunks using an LLM. At query time, user questions are matched against this QA bank to retrieve immediate answers when possible, and only if no suitable QA match is found does our framework fall back to an on-the-fly response generation. Experiments on OHRBench demonstrate that our HybridRAG provides higher answer quality and lower latency compared to a standard RAG baseline. We believe that HybridRAG could be a practical solution for real-world chatbot applications that must handle large volumes of unstructured documents and lots of users under limited computational resources.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) ベースのチャットボット応答を外部知識に基盤付ける強力なアプローチとして登場した。しかしながら、既存のRAG研究では、よく構造化されたテキストソース(例えばウィキペディアやキュレートされたデータセット)を仮定し、クエリ時に検索と生成を行う。本稿では,より正確かつ高速なチャットボット応答を実現するための,新規かつ実用的なRAGフレームワークであるHybridRAGを提案する。まず、HybridRAGは、OCR(Optical Character Recognition)とレイアウト解析によって複雑なレイアウト(テキスト、テーブル、図形)を含む、未構造化のPDF文書を取り込み、それらを階層的なテキストチャンクに変換する。そして、LCMを用いて、組織化されたチャンクから、もっともらしい質問応答(QA)知識ベースを事前生成する。クエリ時に、ユーザ質問がこのQAバンクと一致して、可能な限り即時回答を取得し、適切なQAマッチが見つからない場合に限り、私たちのフレームワークはオンザフライのレスポンス生成にフォールバックします。 OHRBenchの実験では、HybridRAGは標準的なRAGベースラインよりも高い応答品質と低レイテンシを提供します。我々は、HybridRAGが、限られた計算資源の下で大量の構造化されていないドキュメントと多数のユーザを扱う必要がある現実世界のチャットボットアプリケーションにとって、実用的なソリューションであると考えている。

関連論文リスト

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge [26.8497597881469]
HybridRAG-Benchは、ハイブリッド知識よりも検索集約的なマルチホップ推論を評価するためのベンチマークを構築するためのフレームワークである。そこで,HybridRAG-Benchはパラメトリックリコールよりも真の検索と推論に報いることを示す。
論文参考訳（メタデータ） (2026-02-10T19:04:01Z)
Leveraging LLM-Assisted Query Understanding for Live Retrieval-Augmented Generation [6.62734677678023]
実世界のライブ検索拡張生成(RAG)システムは、ノイズがありあいまいで、複数の意図を含むユーザクエリを処理する場合、課題に直面します。本稿では,オープンドメイン環境におけるRAGシステムの堅牢性と有効性向上を目的とした新しいフレームワークであるOmni-RAGを紹介する。
論文参考訳（メタデータ） (2025-06-26T15:35:12Z)
Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T08:18:33Z)
QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。 RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文参考訳（メタデータ） (2025-01-06T01:07:59Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Enhancing Retrieval in QA Systems with Derived Feature Association [0.0]
Retrieval augmented generation (RAG) は、長い文脈質問応答(QA)システムにおいて標準となっている。我々は、AI派生文書(RAIDD)からレトリーバル(Retrieval)と呼ばれるRAGシステムへの新たな拡張を提案する。
論文参考訳（メタデータ） (2024-10-02T05:24:49Z)
GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。 GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文参考訳（メタデータ） (2024-09-23T21:42:47Z)
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。 MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
DecAF: Joint Decoding of Answers and Logical Forms for Question Answering over Knowledge Bases [81.19499764899359]
本稿では,論理形式と直解の両方を共同で生成する新しいフレームワークDecAFを提案する。 DecAFはWebQSP、FreebaseQA、GrailQAベンチマークで新しい最先端の精度を実現している。
論文参考訳（メタデータ） (2022-09-30T19:51:52Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。