論文の概要: Towards Reliable Retrieval in RAG Systems for Large Legal Datasets
- arxiv url: http://arxiv.org/abs/2510.06999v1
- Date: Wed, 08 Oct 2025 13:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.513377
- Title: Towards Reliable Retrieval in RAG Systems for Large Legal Datasets
- Title(参考訳): 大規模法律データセットのためのRAGシステムにおける信頼性の高い検索に向けて
- Authors: Markus Reuter, Tobias Lingenberg, Rūta Liepiņa, Francesca Lagioia, Marco Lippi, Giovanni Sartor, Andrea Passerini, Burcu Sayin,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための有望なアプローチである
これは、構造的に類似したドキュメントの大規模なデータベースが、しばしば検索システムに障害を引き起こす、法的領域において特に困難である。
文書レベルの合成要約で各テキストチャンクを拡大する,単純で効率的な手法について検討する。
我々の研究は、この実用的でスケーラブルで、容易に統合可能な手法が、大規模法的文書データセットに適用した場合、RAGシステムの信頼性を高める証拠を提供する。
- 参考スコア(独自算出の注目度): 6.376251215279889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a promising approach to mitigate hallucinations in Large Language Models (LLMs) for legal applications, but its reliability is critically dependent on the accuracy of the retrieval step. This is particularly challenging in the legal domain, where large databases of structurally similar documents often cause retrieval systems to fail. In this paper, we address this challenge by first identifying and quantifying a critical failure mode we term Document-Level Retrieval Mismatch (DRM), where the retriever selects information from entirely incorrect source documents. To mitigate DRM, we investigate a simple and computationally efficient technique which we refer to as Summary-Augmented Chunking (SAC). This method enhances each text chunk with a document-level synthetic summary, thereby injecting crucial global context that would otherwise be lost during a standard chunking process. Our experiments on a diverse set of legal information retrieval tasks show that SAC greatly reduces DRM and, consequently, also improves text-level retrieval precision and recall. Interestingly, we find that a generic summarization strategy outperforms an approach that incorporates legal expert domain knowledge to target specific legal elements. Our work provides evidence that this practical, scalable, and easily integrable technique enhances the reliability of RAG systems when applied to large-scale legal document datasets.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は法的な応用のための大規模言語モデル(LLM)における幻覚を緩和するための有望なアプローチであるが、その信頼性は検索ステップの精度に大きく依存している。
これは、構造的に類似したドキュメントの大規模なデータベースが、しばしば検索システムに障害を引き起こす、法的領域において特に困難である。
本稿では,まずドキュメンテーション・レトリヴァル・ミスマッチ (DRM) と呼ぶ重要な障害モードを特定し,定量化することでこの問題に対処する。
DRMを緩和するために,我々は,Session-Augmented Chunking (SAC) と呼ぶシンプルで効率的な手法について検討する。
この方法は、文書レベルの合成要約によって各テキストチャンクを強化し、標準チャンクプロセス中に失われる重要なグローバルコンテキストを注入する。
SACはDRMを大幅に削減し,テキストレベルの検索精度とリコールを改善した。
興味深いことに、一般的な要約戦略は、特定の法的要素をターゲットにした法の専門家ドメイン知識を取り入れたアプローチよりも優れている。
我々の研究は、この実用的でスケーラブルで、容易に統合可能な手法が、大規模法的文書データセットに適用した場合、RAGシステムの信頼性を高める証拠を提供する。
関連論文リスト
- ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - Fishing for Answers: Exploring One-shot vs. Iterative Retrieval Strategies for Retrieval Augmented Generation [11.180502261031789]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)に基づく、業界におけるクローズドソース文書の理解とクエリのための強力なソリューションである。
しかしながら、基本的なRAGは、法律および規制領域における複雑なQAタスクに苦しむことが多い。
証拠のカバレッジを改善し、品質に答えるための2つの戦略を探求する。
論文 参考訳(メタデータ) (2025-09-05T05:44:50Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [32.71308102835446]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - Grounding Language Model with Chunking-Free In-Context Retrieval [27.316315081648572]
本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T07:22:04Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。