論文の概要: Legal RAG Bench: an end-to-end benchmark for legal RAG
- arxiv url: http://arxiv.org/abs/2603.01710v1
- Date: Mon, 02 Mar 2026 10:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.820071
- Title: Legal RAG Bench: an end-to-end benchmark for legal RAG
- Title(参考訳): Legal RAG Bench: RAGのエンドツーエンドベンチマーク
- Authors: Abdur-Rahman Butler, Umar Butler,
- Abstract要約: 本稿では,法的なRAGシステムのエンドツーエンド性能を評価するためのベンチマークおよび評価手法である Legal RAG Bench を紹介する。
RAGベンチはヴィクトリア朝の刑事告発書から4,876通、複雑で手作りの質問100通で構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Legal RAG Bench, a benchmark and evaluation methodology for assessing the end-to-end performance of legal RAG systems. As a benchmark, Legal RAG Bench consists of 4,876 passages from the Victorian Criminal Charge Book alongside 100 complex, hand-crafted questions demanding expert knowledge of criminal law and procedure. Both long-form answers and supporting passages are provided. As an evaluation methodology, Legal RAG Bench leverages a full factorial design and novel hierarchical error decomposition framework, enabling apples-to-apples comparisons of the contributions of retrieval and reasoning models in RAG. We evaluate three state-of-the-art embedding models (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) and two frontier LLMs (Gemini 3.1 Pro and GPT-5.2), finding that information retrieval is the primary driver of legal RAG performance, with LLMs exerting a more moderate effect on correctness and groundedness. Kanon 2 Embedder, in particular, had the largest positive impact on performance, improving average correctness by 17.5 points, groundedness by 4.5 points, and retrieval accuracy by 34 points. We observe that many errors attributed to hallucinations in legal RAG systems are in fact triggered by retrieval failures, concluding that retrieval sets the ceiling for the performance of many modern legal RAG systems. We document why and how we built Legal RAG Bench alongside the results of our evaluations. We also openly release our code and data to assist with reproduction of our findings.
- Abstract(参考訳): 本稿では,法的なRAGシステムのエンドツーエンド性能を評価するためのベンチマークおよび評価手法である Legal RAG Bench を紹介する。
ベンチマークとして、RAG Benchはヴィクトリア朝の刑事告発書から4,876通の条文と、犯罪法と手続きに関する専門知識を求める複雑な手作りの質問からなる。
長文回答と支持通路の両方が提供される。
評価手法として、RAG Benchは完全な因子的設計と新しい階層的エラー分解フレームワークを活用し、RAGにおける検索モデルと推論モデルの寄与について、アップルとアプリケーション間の比較を可能にする。
Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) と2つのフロンティア LLM (Gemini 3.1 Pro と GPT-5.2) の3つの組込みモデルを評価し、情報検索が法的な RAG 性能の第一の要因であり、LLM は正当性と基底性により適度な影響を与えることを発見した。
特にKon 2 Embedderはパフォーマンスに最大のポジティブな影響を与え、17.5ポイント、グラウンドドネス4.5ポイント、検索精度34ポイントを向上した。
法的なRAGシステムにおける幻覚に起因する多くのエラーは、実際、検索失敗によって引き起こされるものであり、検索が多くの近代的な法的なRAGシステムの性能の天井となることを結論づける。
評価の結果とともに、法的なRAG Benchを構築した理由と方法が文書化されています。
また、私たちの発見の再現を支援するために、コードとデータを公開しています。
関連論文リスト
- Reliability by design: quantifying and eliminating fabrication risk in LLMs. From generative to consultative AI: a comparative analysis in the legal domain and lessons for high-stakes knowledge bases [0.0]
本稿では,幻覚を減らし,大規模言語モデルを高額な法的作業に信頼性を持たせる方法について検討する。
1)独立した生成モデル(創造的オラクル)、(2)基本的な検索強化システム(専門的アーキビスト)、(3)高度なエンドツーエンド最適化RAGシステム(厳密なアーキビスト)の3つのAIパラダイムを区別する。
論文 参考訳(メタデータ) (2026-01-21T21:26:42Z) - Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics [49.3262123849242]
LEGIT(LEGal Issue Trees)は,新しい大規模(24Kインスタンス)の専門家レベルの法的推論データセットである。
我々は、裁判判決を、当事者の議論と裁判所の結論の階層的な木に変換する。
論文 参考訳(メタデータ) (2025-11-30T18:32:43Z) - Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - Use of Retrieval-Augmented Large Language Model Agent for Long-Form COVID-19 Fact-Checking [2.7768742946084077]
本研究では,大規模言語モデルと検索拡張生成を組み合わせたエージェントシステムSAFEを提案する。
SAFEには、クレーム抽出のためのエージェントとクレーム検証のためのエージェントの2つが含まれている。
拡張版であるSAFELOTR-RAG + SRAGは、Self-RAGを組み込んでクエリ書き換えによる検索を洗練している。
論文 参考訳(メタデータ) (2025-10-10T15:10:46Z) - InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering [17.346965728209394]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。
本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。
本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
論文 参考訳(メタデータ) (2025-09-16T07:28:07Z) - A Reasoning-Focused Legal Retrieval Benchmark [28.607778538115642]
本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T20:44:03Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation [19.633769905100113]
Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。
我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:46:32Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。