論文の概要: Fine-grained Claim-level RAG Benchmark for Law
- arxiv url: http://arxiv.org/abs/2605.21071v3
- Date: Fri, 22 May 2026 11:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.712828
- Title: Fine-grained Claim-level RAG Benchmark for Law
- Title(参考訳): 法則のための微粒クレームレベルRAGベンチマーク
- Authors: Souvick Das, Sallam Abualhaija, Domenico Bianculli,
- Abstract要約: 法則などの高次領域では、検索増強生成(RAG)は、生成した応答における幻覚を緩和するために一般的に用いられる。
法的なRAGシステムの既存の評価フレームワークは、検索および生成性能の詳細な解析を行うために必要な粒度を欠いている。
ClaimRAG-LAWは、フランス語と英語をサポートする法的RAGのための包括的なデータセットであり、専門家と非専門家の両方をターゲットにしており、現実的なシナリオを反映した多様な質問タイプを含んでいる。
- 参考スコア(独自算出の注目度): 2.807618472608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of large language models (LLMs) is shifting semantic search toward a question-answering paradigm, where users ask questions and LLMs generate responses. In high-stake domains such as law, retrieval-augmented generation (RAG) is commonly used to mitigate hallucinations in generated responses. Nonetheless, prior work shows that RAG systems, whether general-purpose or legal-specific, still hallucinate at varying rates, making fine-grained evaluation essential. Despite the need, existing evaluation frameworks for legal RAG systems lack the granularity required to provide detailed analysis of retrieval and generation performance separately. Moreover, current benchmarks are largely English-only and centered on legal expert queries, overlooking non-expert needs. We introduce ClaimRAG-LAW, a comprehensive dataset for legal RAG that supports French and English, targets both experts and non-experts, and includes diverse question types reflecting realistic scenarios. We further apply a fine-grained evaluation framework of state-of-the-art legal RAG systems, revealing limitations in retrieval, generation, and claim-level analysis in the legal domain.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、ユーザが質問をし、LLMが応答を生成する、質問応答パラダイムへと意味探索をシフトさせることである。
法則のような高次領域では、検索増強生成(RAG)は、生成した応答における幻覚を緩和するために一般的に用いられる。
それにもかかわらず、以前の研究は、RAGシステムは、汎用的であれ法的な特質であれ、まだ様々な速度で幻覚し、きめ細かい評価が不可欠であることを示している。
法的なRAGシステムのための既存の評価フレームワークは、検索と生成性能を個別に詳細に分析するために必要な粒度を欠いている。
さらに、現在のベンチマークは主に英語のみであり、専門知識のないニーズを見越して、法的専門家のクエリを中心にしている。
ClaimRAG-LAWは、フランス語と英語をサポートする法的RAGのための包括的なデータセットであり、専門家と非専門家の両方をターゲットにしており、現実的なシナリオを反映した多様な質問タイプを含んでいる。
さらに、最先端の法的RAGシステムのきめ細かい評価フレームワークを適用し、法域における検索、生成、クレームレベルの分析の限界を明らかにする。
関連論文リスト
- Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents [4.735657207313987]
Retrieval-Augmented Generation (RAG) は、法的文書コンサルテーションのための有望な技術として登場した。
既存のベンチマークでは、ジョイントレトリバージェネレータ評価の特別なサポートが欠如している。
LegRAGは、主要な評価指標で既存の最先端手法を1.3%から5.6%上回っている。
論文 参考訳(メタデータ) (2026-03-12T10:27:40Z) - LegalMALR:Multi-Agent Query Understanding and LLM-Based Reranking for Chinese Statute Retrieval [10.997604609194033]
法定検索は法的援助と司法決定支援に不可欠である。
現実の法的なクエリは暗黙的で、複数発行され、口語または未特定の形で表現されることが多い。
本稿では,マルチエージェントクエリ理解システムとゼロショット大文字生成モジュールを統合した検索フレームワークであるLegalMALRを提案する。
論文 参考訳(メタデータ) (2026-01-25T04:44:56Z) - Augmented Question-guided Retrieval (AQgR) of Indian Case Law with LLM, RAG, and Structured Summaries [0.0]
本稿では,関連事例の検索を容易にするためにLarge Language Models (LLMs) を提案する。
提案手法は,Retrieval Augmented Generation (RAG) と,インドの事例法に最適化された構造化要約を組み合わせたものである。
本システムは,関連事例法をより効果的に識別するために,事実シナリオに基づく対象の法的質問を生成する。
論文 参考訳(メタデータ) (2025-07-23T05:24:44Z) - A Reasoning-Focused Legal Retrieval Benchmark [28.607778538115642]
本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T20:44:03Z) - LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation [19.633769905100113]
Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。
我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:46:32Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。