Fugu-MT 論文翻訳(概要): Towards Reliable Retrieval in RAG Systems for Large Legal Datasets

論文の概要: Towards Reliable Retrieval in RAG Systems for Large Legal Datasets

arxiv url: http://arxiv.org/abs/2510.06999v1
Date: Wed, 08 Oct 2025 13:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 16:41:20.513377
Title: Towards Reliable Retrieval in RAG Systems for Large Legal Datasets
Title（参考訳）: 大規模法律データセットのためのRAGシステムにおける信頼性の高い検索に向けて
Authors: Markus Reuter, Tobias Lingenberg, Rūta Liepiņa, Francesca Lagioia, Marco Lippi, Giovanni Sartor, Andrea Passerini, Burcu Sayin,
Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための有望なアプローチであるこれは、構造的に類似したドキュメントの大規模なデータベースが、しばしば検索システムに障害を引き起こす、法的領域において特に困難である。文書レベルの合成要約で各テキストチャンクを拡大する,単純で効率的な手法について検討する。我々の研究は、この実用的でスケーラブルで、容易に統合可能な手法が、大規模法的文書データセットに適用した場合、RAGシステムの信頼性を高める証拠を提供する。
参考スコア（独自算出の注目度）: 6.376251215279889
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) is a promising approach to mitigate hallucinations in Large Language Models (LLMs) for legal applications, but its reliability is critically dependent on the accuracy of the retrieval step. This is particularly challenging in the legal domain, where large databases of structurally similar documents often cause retrieval systems to fail. In this paper, we address this challenge by first identifying and quantifying a critical failure mode we term Document-Level Retrieval Mismatch (DRM), where the retriever selects information from entirely incorrect source documents. To mitigate DRM, we investigate a simple and computationally efficient technique which we refer to as Summary-Augmented Chunking (SAC). This method enhances each text chunk with a document-level synthetic summary, thereby injecting crucial global context that would otherwise be lost during a standard chunking process. Our experiments on a diverse set of legal information retrieval tasks show that SAC greatly reduces DRM and, consequently, also improves text-level retrieval precision and recall. Interestingly, we find that a generic summarization strategy outperforms an approach that incorporates legal expert domain knowledge to target specific legal elements. Our work provides evidence that this practical, scalable, and easily integrable technique enhances the reliability of RAG systems when applied to large-scale legal document datasets.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は法的な応用のための大規模言語モデル(LLM)における幻覚を緩和するための有望なアプローチであるが、その信頼性は検索ステップの精度に大きく依存している。これは、構造的に類似したドキュメントの大規模なデータベースが、しばしば検索システムに障害を引き起こす、法的領域において特に困難である。本稿では,まずドキュメンテーション・レトリヴァル・ミスマッチ (DRM) と呼ぶ重要な障害モードを特定し,定量化することでこの問題に対処する。 DRMを緩和するために,我々は,Session-Augmented Chunking (SAC) と呼ぶシンプルで効率的な手法について検討する。この方法は、文書レベルの合成要約によって各テキストチャンクを強化し、標準チャンクプロセス中に失われる重要なグローバルコンテキストを注入する。 SACはDRMを大幅に削減し,テキストレベルの検索精度とリコールを改善した。興味深いことに、一般的な要約戦略は、特定の法的要素をターゲットにした法の専門家ドメイン知識を取り入れたアプローチよりも優れている。我々の研究は、この実用的でスケーラブルで、容易に統合可能な手法が、大規模法的文書データセットに適用した場合、RAGシステムの信頼性を高める証拠を提供する。

関連論文リスト

Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation [61.47019392413271]
WinnowRAGは、価値あるコンテンツを保持しながら、ノイズの多いドキュメントを体系的にフィルタリングするように設計されている。 WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
論文参考訳（メタデータ） (2025-11-01T20:08:13Z)
ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文参考訳（メタデータ） (2025-09-27T22:36:42Z)
Fishing for Answers: Exploring One-shot vs. Iterative Retrieval Strategies for Retrieval Augmented Generation [11.180502261031789]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)に基づく、業界におけるクローズドソース文書の理解とクエリのための強力なソリューションである。しかしながら、基本的なRAGは、法律および規制領域における複雑なQAタスクに苦しむことが多い。証拠のカバレッジを改善し、品質に答えるための2つの戦略を探求する。
論文参考訳（メタデータ） (2025-09-05T05:44:50Z)
Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文参考訳（メタデータ） (2025-06-16T15:34:29Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [32.71308102835446]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文参考訳（メタデータ） (2024-09-12T02:43:40Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)
Grounding Language Model with Chunking-Free In-Context Retrieval [27.316315081648572]
本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。
論文参考訳（メタデータ） (2024-02-15T07:22:04Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文参考訳（メタデータ） (2024-01-29T04:36:39Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。