論文の概要: Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2603.23508v1
- Date: Wed, 04 Mar 2026 12:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.990299
- Title: Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems
- Title(参考訳): 高速かつ忠実な長期文書検索型生成システムのリアルタイム検証
- Authors: Xunzhuo Liu, Bowei He, Xue Liu, Haichen Zhang, Huamin Chen,
- Abstract要約: 本稿では,実運用RAGパイプラインに統合されたリアルタイム検証コンポーネントの設計について述べる。
このシステムは文書を最大32Kのトークンで処理し、応答時間と検証カバレッジのバランスをとるために適応的な推論戦略を採用する。
- 参考スコア(独自算出の注目度): 9.927850680621038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is increasingly deployed in enterprise search and document-centric assistants, where responses must be grounded in long and complex source materials. In practice, verifying that generated answers faithfully reflect retrieved documents is difficult: large language models can check long contexts but are too slow and costly for interactive services, while lightweight classifiers operate within strict context limits and frequently miss evidence outside truncated passages. We present the design of a real-time verification component integrated into a production RAG pipeline that enables full-document grounding under latency constraints. The system processes documents up to 32K tokens and employs adaptive inference strategies to balance response time and verification coverage across workloads. We describe the architectural decisions, operational trade-offs, and evaluation methodology used to deploy the verifier, and show that full-context verification substantially improves detection of unsupported responses compared with truncated validation. Our experience highlights when long-context verification is necessary, why chunk-based checking often fails in real documents, and how latency budgets shape model design. These findings provide practical guidance for practitioners building reliable large-scale retrieval-augmented applications. (Model, benchmark, and code: https://huggingface.co/llm-semantic-router)
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、エンタープライズ検索やドキュメント中心のアシスタントにますます多くデプロイされている。
大規模な言語モデルは長いコンテキストをチェックできるが、インタラクティブなサービスには遅すぎるしコストもかかる。
本稿では,実運用RAGパイプラインに統合されたリアルタイム検証コンポーネントの設計について述べる。
このシステムは文書を最大32Kトークンで処理し、応答時間とワークロード間の検証カバレッジのバランスをとるために適応型推論戦略を採用している。
本報告では, 検証器の配置に使用するアーキテクチャ決定, 運用上のトレードオフ, 評価手法について述べる。
私たちの経験では、長期コンテキスト検証が必要な場合、チャンクベースのチェックが実際のドキュメントで頻繁に失敗する理由、遅延予算がモデル設計をどのように形成するかが強調されています。
これらの知見は,信頼性の高い大規模検索拡張アプリケーションを構築する実践者に対して,実践的なガイダンスを提供する。
(モデル、ベンチマーク、コード:https://huggingface.co/llm-semantic-router)
関連論文リスト
- FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Hierarchical Document Refinement for Long-context Retrieval-augmented Generation [28.421675216147374]
LongRefinerは、長いドキュメントの固有の構造特性を利用する効率的なプラグアンドプレイ精製機である。
LongRefinerは、最高のベースラインに比べて計算コストとレイテンシを10倍少なくしながら、さまざまなシナリオで競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-15T15:34:15Z) - Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9060210098040855]
本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文 参考訳(メタデータ) (2025-02-17T13:00:15Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Grounding Language Model with Chunking-Free In-Context Retrieval [27.316315081648572]
本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T07:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。