論文の概要: VersionRAG: Version-Aware Retrieval-Augmented Generation for Evolving Documents
- arxiv url: http://arxiv.org/abs/2510.08109v1
- Date: Thu, 09 Oct 2025 11:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.047597
- Title: VersionRAG: Version-Aware Retrieval-Augmented Generation for Evolving Documents
- Title(参考訳): VersionRAG: ドキュメントの進化のためのバージョン対応検索生成
- Authors: Daniel Huwiler, Kurt Stockinger, Jonathan Fürst,
- Abstract要約: 既存のアプローチは、バージョンに敏感な質問に対して58~64%の精度しか達成していない。
文書の進化を明示的にモデル化するバージョン対応RAGフレームワークであるVersionRAGを紹介します。
検索中、VersionRAGはインテント分類に基づいて、クエリを特定のパスにルーティングする。
- 参考スコア(独自算出の注目度): 2.657536539253924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems fail when documents evolve through versioning-a ubiquitous characteristic of technical documentation. Existing approaches achieve only 58-64% accuracy on version-sensitive questions, retrieving semantically similar content without temporal validity checks. We present VersionRAG, a version-aware RAG framework that explicitly models document evolution through a hierarchical graph structure capturing version sequences, content boundaries, and changes between document states. During retrieval, VersionRAG routes queries through specialized paths based on intent classification, enabling precise version-aware filtering and change tracking. On our VersionQA benchmark-100 manually curated questions across 34 versioned technical documents-VersionRAG achieves 90% accuracy, outperforming naive RAG (58%) and GraphRAG (64%). VersionRAG reaches 60% accuracy on implicit change detection where baselines fail (0-10%), demonstrating its ability to track undocumented modifications. Additionally, VersionRAG requires 97% fewer tokens during indexing than GraphRAG, making it practical for large-scale deployment. Our work establishes versioned document QA as a distinct task and provides both a solution and benchmark for future research.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、ドキュメントがバージョニングによって進化する際に失敗する。
既存のアプローチは、バージョンに敏感な質問に対して58~64%の精度しか達成せず、時間的妥当性チェックなしで意味的に類似したコンテンツを検索する。
我々は、バージョンシーケンス、コンテンツバウンダリ、文書状態間の変更をキャプチャする階層的なグラフ構造を通して、文書の進化を明示的にモデル化するバージョンアウェアなRAGフレームワークであるVersionRAGを提案する。
検索中、VersionRAGは、インテント分類に基づいて、クエリを特別なパスにルーティングし、正確なバージョン認識フィルタリングと変更追跡を可能にする。
VersionRAGは90%の精度を実現し、単純なRAG(58%)とGraphRAG(64%)を上回っています。
VersionRAGは、ベースラインが失敗する暗黙的な変更検出(0-10%)で60%の精度に達し、文書化されていない修正を追跡する能力を示している。
さらにVersionRAGは、GraphRAGよりもインデクシング時に97%少ないトークンを必要とするため、大規模なデプロイメントには実用的だ。
我々の研究は、バージョン管理された文書QAを個別のタスクとして確立し、将来の研究のためのソリューションとベンチマークを提供する。
関連論文リスト
- LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding [37.12229829548839]
レイアウト対応動的RAGフレームワークであるLAD-RAGを提案する。
LAD-RAGは、レイアウト構造とページ間の依存関係をキャプチャするシンボリック文書グラフを構築する。
MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの実験は、LAD-RAGが検索を改善し、トップkチューニングなしで平均90%以上の完全リコールを達成することを示した。
論文 参考訳(メタデータ) (2025-10-08T17:02:04Z) - InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering [17.346965728209394]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。
本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。
本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
論文 参考訳(メタデータ) (2025-09-16T07:28:07Z) - Advanced Layout Analysis Models for Docling [7.819891138280585]
Doclingの以前のベースラインよりも20.6%から23.9%の改善を実現した5つの新しいドキュメントレイアウトモデルを紹介します。
私たちのベストモデルである"heron-101"は78%のmAPを実現し、1つのNVIDIA A100 GPU上で28ms/image推論時間を実現しています。
すべてのトレーニングされたチェックポイント、コード、ドキュメントは、HuggingFaceのパーミッシブなライセンスの下でリリースされます。
論文 参考訳(メタデータ) (2025-09-15T09:20:11Z) - Enhancing Document VQA Models via Retrieval-Augmented Generation [1.6769365072542683]
ドキュメントVQAは数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然として非常に大きな視覚言語モデルに依存している。
Retrieval-Augmented Generation (RAG) は魅力的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-26T12:32:55Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。
本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。
本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-19T02:17:35Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Zero-shot Fact Verification by Claim Generation [85.27523983027471]
我々は,堅牢な事実検証モデルをトレーニングするフレームワークであるQACGを開発した。
われわれは自動的に生成されたクレームを使って、Wikipediaのエビデンスからサポートしたり、反論したり、検証したりできる。
ゼロショットシナリオでは、QACGはRoBERTaモデルのF1を50%から77%に改善し、パフォーマンスは2K以上の手作業による例に相当する。
論文 参考訳(メタデータ) (2021-05-31T03:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。