Fugu-MT 論文翻訳(概要): LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain

論文の概要: LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain

arxiv url: http://arxiv.org/abs/2408.10343v1
Date: Mon, 19 Aug 2024 18:30:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 18:03:34.457512
Title: LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
Title（参考訳）: LegalBench-RAG: 法域における検索拡張生成のベンチマーク
Authors: Nicholas Pipitone, Ghita Houir Alami,
Abstract要約: Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。 LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価する。我々は、法空間内のRAGパイプラインの検索ステップを評価するために特別に設計された最初のベンチマークであるLegalBench-RAGを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) systems are showing promising potential, and are becoming increasingly relevant in AI-powered legal applications. Existing benchmarks, such as LegalBench, assess the generative capabilities of Large Language Models (LLMs) in the legal domain, but there is a critical gap in evaluating the retrieval component of RAG systems. To address this, we introduce LegalBench-RAG, the first benchmark specifically designed to evaluate the retrieval step of RAG pipelines within the legal space. LegalBench-RAG emphasizes precise retrieval by focusing on extracting minimal, highly relevant text segments from legal documents. These highly relevant snippets are preferred over retrieving document IDs, or large sequences of imprecise chunks, both of which can exceed context window limitations. Long context windows cost more to process, induce higher latency, and lead LLMs to forget or hallucinate information. Additionally, precise results allow LLMs to generate citations for the end user. The LegalBench-RAG benchmark is constructed by retracing the context used in LegalBench queries back to their original locations within the legal corpus, resulting in a dataset of 6,858 query-answer pairs over a corpus of over 79M characters, entirely human-annotated by legal experts. We also introduce LegalBench-RAG-mini, a lightweight version for rapid iteration and experimentation. By providing a dedicated benchmark for legal retrieval, LegalBench-RAG serves as a critical tool for companies and researchers focused on enhancing the accuracy and performance of RAG systems in the legal domain. The LegalBench-RAG dataset is publicly available at https://github.com/zeroentropy-cc/legalbenchrag.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。 LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価するが、RAGシステムの検索コンポーネントを評価するには重大なギャップがある。これを解決するために、法空間内のRAGパイプラインの検索ステップを評価するために設計された最初のベンチマークであるLegalBench-RAGを紹介する。 LegalBench-RAGは、法律文書から最小限の、非常に関連性の高いテキストセグメントを抽出することに焦点を当てて、正確な検索を強調している。これらの非常に関連性の高いスニペットは、文書IDの検索や不正確なチャンクの大規模なシーケンスよりも好まれる。長いコンテキストウィンドウは処理により多くのコストがかかり、レイテンシが高くなり、LLMは情報を忘れたり幻覚させる。加えて、正確な結果により、LLMはエンドユーザのために引用を生成することができる。 LegalBench-RAGベンチマークは、LegalBenchクエリで使用されるコンテキストを法定コーパス内の元の場所に遡ることによって構築されている。高速反復実験のための軽量バージョンである LegalBench-RAG-mini も紹介する。法律検索のための専用のベンチマークを提供することにより、法域におけるRAGシステムの正確性と性能の向上に焦点を当てた企業や研究者にとって、LegalBench-RAGは重要なツールとなる。 LegalBench-RAGデータセットはhttps://github.com/zeroentropy-cc/legalbenchragで公開されている。

関連論文リスト

LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。 LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。 LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文参考訳（メタデータ） (2026-01-31T10:18:32Z)
PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文参考訳（メタデータ） (2025-12-04T08:48:02Z)
Scaling Legal AI: Benchmarking Mamba and Transformers for Statutory Classification and Case Law Retrieval [0.0]
本稿では,線形時間選択機構を持つ状態空間モデルであるMambaを,法定分類と判例法検索のための主要な変圧器モデルに対して,初めて包括的ベンチマークを行った。その結果、マンバの線形スケーリングにより、トランスフォーマーの何倍も長い法律文書を処理できることがわかった。我々の発見は、国家空間モデルとトランスフォーマーのトレードオフを強調し、法定分析、司法決定支援、政策研究に法的AIを配置するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-08-29T17:38:47Z)
A Reasoning-Focused Legal Retrieval Benchmark [28.607778538115642]
本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
論文参考訳（メタデータ） (2025-05-06T20:44:03Z)
Incorporating Legal Structure in Retrieval-Augmented Generation: A Case Study on Copyright Fair Use [44.99833362998488]
本稿では,米国著作権法におけるフェアユース・ドクトリンに合わせて,ドメイン固有のRetrieval-Augmented Generationの実装を提案する。 DMCA削除の頻度の増加とコンテンツクリエーターにとってアクセス可能な法的支援の欠如により、我々は、セマンティック検索と法知識グラフと裁判所引用ネットワークを組み合わせて、検索品質と推論信頼性を向上させる構造的アプローチを提案する。
論文参考訳（メタデータ） (2025-05-04T15:53:49Z)
LRAGE: Legal Retrieval Augmented Generation Evaluation Tool [4.799822253865053]
LRAGEは、法的領域に焦点を当てたRAGシステムの総合的な評価のためのオープンソースツールである。韓国語(KBL)、英語(LegalBench)、中国語(LawBench)を含む多言語法的ベンチを用いたLRAGEの検証を行った。
論文参考訳（メタデータ） (2025-04-02T15:45:03Z)
LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation [19.633769905100113]
Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
論文参考訳（メタデータ） (2025-02-28T01:46:32Z)
CaseGen: A Benchmark for Multi-Stage Legal Case Documents Generation [22.98779736851499]
中国法域における多段階訴訟文書生成のベンチマークであるCaseGenを紹介する。 CaseGenは、法律の専門家によって注釈付けされた500の実ケースサンプルに基づいており、7つの重要なケースセクションをカバーしている。防衛声明の起草、裁判事実の執筆、法的推論の作成、判決結果の生成の4つの重要なタスクをサポートする。
論文参考訳（メタデータ） (2025-02-25T08:03:32Z)
LegalBench.PT: A Benchmark for Portuguese Law [17.554201334646056]
ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
論文参考訳（メタデータ） (2025-02-22T21:07:12Z)
LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。 LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文参考訳（メタデータ） (2024-12-23T04:02:46Z)
Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。 AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文参考訳（メタデータ） (2024-12-09T07:46:14Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Bridging Law and Data: Augmenting Reasoning via a Semi-Structured Dataset with IRAC methodology [22.740895683854568]
本稿では,法シナリオ分析のためのベンチマークであるLEGALSEMIを紹介する。 LEGALSEMIは54の法的シナリオで構成されており、それぞれが包括的なIRAC(Issue, Rule, Application, Conclusion)フレームワークに基づいて、法の専門家によって厳格に注釈付けされている。 IRAC分析におけるLEGALSEMIの有用性を評価するための一連の実験を行った。
論文参考訳（メタデータ） (2024-06-19T04:59:09Z)
CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering [1.0760413363405308]
Retrieval-Augmented Generation (RAG) は、入力のコンテキストとして事前知識を提供することで、Large Language Model (LLM) の出力を向上させる。ケースベース推論(CBR)は、LLMにおけるRAGプロセスの一部として、構造検索を行う重要な機会を提供する。我々は,CBRサイクルの初期検索段階,インデックス語彙,類似性知識コンテナを,文脈に関連のあるケースでLLMクエリを強化するために使用するCBR-RAGを紹介する。
論文参考訳（メタデータ） (2024-04-04T21:47:43Z)
MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文参考訳（メタデータ） (2023-10-24T08:17:11Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)
U-CREAT: Unsupervised Case Retrieval using Events extrAcTion [2.2385755093672044]
本稿では, IL-PCR (Indian Legal Prior Case Retrieval) コーパスのための新しいベンチマーク(英語)を提案する。判例検索におけるイベントの役割について検討し,教師なし検索手法に基づくパイプラインU-CREATを提案する。提案手法はBM25に比べて性能が著しく向上し,検索精度が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-07-11T13:51:12Z)
SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T10:47:01Z)
Finding the Law: Enhancing Statutory Article Retrieval via Graph Neural Networks [3.5880535198436156]
本稿では,グラフニューラルネットワークを用いて法制構造を組み込んだグラフ拡張高密度法規検索(G-DSR)モデルを提案する。実験の結果,本手法は,実世界のエキスパートアノテートされたSARデータセットにおいて,強力な検索ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-01-30T12:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。