論文の概要: LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
- arxiv url: http://arxiv.org/abs/2408.10343v1
- Date: Mon, 19 Aug 2024 18:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 18:03:34.457512
- Title: LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
- Title(参考訳): LegalBench-RAG: 法域における検索拡張生成のベンチマーク
- Authors: Nicholas Pipitone, Ghita Houir Alami,
- Abstract要約: Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。
LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価する。
我々は、法空間内のRAGパイプラインの検索ステップを評価するために特別に設計された最初のベンチマークであるLegalBench-RAGを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are showing promising potential, and are becoming increasingly relevant in AI-powered legal applications. Existing benchmarks, such as LegalBench, assess the generative capabilities of Large Language Models (LLMs) in the legal domain, but there is a critical gap in evaluating the retrieval component of RAG systems. To address this, we introduce LegalBench-RAG, the first benchmark specifically designed to evaluate the retrieval step of RAG pipelines within the legal space. LegalBench-RAG emphasizes precise retrieval by focusing on extracting minimal, highly relevant text segments from legal documents. These highly relevant snippets are preferred over retrieving document IDs, or large sequences of imprecise chunks, both of which can exceed context window limitations. Long context windows cost more to process, induce higher latency, and lead LLMs to forget or hallucinate information. Additionally, precise results allow LLMs to generate citations for the end user. The LegalBench-RAG benchmark is constructed by retracing the context used in LegalBench queries back to their original locations within the legal corpus, resulting in a dataset of 6,858 query-answer pairs over a corpus of over 79M characters, entirely human-annotated by legal experts. We also introduce LegalBench-RAG-mini, a lightweight version for rapid iteration and experimentation. By providing a dedicated benchmark for legal retrieval, LegalBench-RAG serves as a critical tool for companies and researchers focused on enhancing the accuracy and performance of RAG systems in the legal domain. The LegalBench-RAG dataset is publicly available at https://github.com/zeroentropy-cc/legalbenchrag.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。
LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価するが、RAGシステムの検索コンポーネントを評価するには重大なギャップがある。
これを解決するために、法空間内のRAGパイプラインの検索ステップを評価するために設計された最初のベンチマークであるLegalBench-RAGを紹介する。
LegalBench-RAGは、法律文書から最小限の、非常に関連性の高いテキストセグメントを抽出することに焦点を当てて、正確な検索を強調している。
これらの非常に関連性の高いスニペットは、文書IDの検索や不正確なチャンクの大規模なシーケンスよりも好まれる。
長いコンテキストウィンドウは処理により多くのコストがかかり、レイテンシが高くなり、LLMは情報を忘れたり幻覚させる。
加えて、正確な結果により、LLMはエンドユーザのために引用を生成することができる。
LegalBench-RAGベンチマークは、LegalBenchクエリで使用されるコンテキストを法定コーパス内の元の場所に遡ることによって構築されている。
高速反復実験のための軽量バージョンである LegalBench-RAG-mini も紹介する。
法律検索のための専用のベンチマークを提供することにより、法域におけるRAGシステムの正確性と性能の向上に焦点を当てた企業や研究者にとって、LegalBench-RAGは重要なツールとなる。
LegalBench-RAGデータセットはhttps://github.com/zeroentropy-cc/legalbenchragで公開されている。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Bridging Law and Data: Augmenting Reasoning via a Semi-Structured Dataset with IRAC methodology [22.740895683854568]
本稿では,法シナリオ分析のためのベンチマークであるLEGALSEMIを紹介する。
LEGALSEMIは54の法的シナリオで構成されており、それぞれが包括的なIRAC(Issue, Rule, Application, Conclusion)フレームワークに基づいて、法の専門家によって厳格に注釈付けされている。
IRAC分析におけるLEGALSEMIの有用性を評価するための一連の実験を行った。
論文 参考訳(メタデータ) (2024-06-19T04:59:09Z) - CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering [1.0760413363405308]
Retrieval-Augmented Generation (RAG) は、入力のコンテキストとして事前知識を提供することで、Large Language Model (LLM) の出力を向上させる。
ケースベース推論(CBR)は、LLMにおけるRAGプロセスの一部として、構造検索を行う重要な機会を提供する。
我々は,CBRサイクルの初期検索段階,インデックス語彙,類似性知識コンテナを,文脈に関連のあるケースでLLMクエリを強化するために使用するCBR-RAGを紹介する。
論文 参考訳(メタデータ) (2024-04-04T21:47:43Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - U-CREAT: Unsupervised Case Retrieval using Events extrAcTion [2.2385755093672044]
本稿では, IL-PCR (Indian Legal Prior Case Retrieval) コーパスのための新しいベンチマーク(英語)を提案する。
判例検索におけるイベントの役割について検討し,教師なし検索手法に基づくパイプラインU-CREATを提案する。
提案手法はBM25に比べて性能が著しく向上し,検索精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-11T13:51:12Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Finding the Law: Enhancing Statutory Article Retrieval via Graph Neural
Networks [3.5880535198436156]
本稿では,グラフニューラルネットワークを用いて法制構造を組み込んだグラフ拡張高密度法規検索(G-DSR)モデルを提案する。
実験の結果,本手法は,実世界のエキスパートアノテートされたSARデータセットにおいて,強力な検索ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T12:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。