論文の概要: LARGE: Legal Retrieval Augmented Generation Evaluation Tool
- arxiv url: http://arxiv.org/abs/2504.01840v1
- Date: Wed, 02 Apr 2025 15:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:35.119044
- Title: LARGE: Legal Retrieval Augmented Generation Evaluation Tool
- Title(参考訳): LARGE: 法定検索型生成評価ツール
- Authors: Minhu Park, Hongseok Oh, Eunkyung Choi, Wonseok Hwang,
- Abstract要約: LRAGEは、法的領域に焦点を当てたRAGシステムの総合的な評価のためのオープンソースツールである。
韓国語(KBL)、英語(LegalBench)、中国語(LawBench)を含む多言語法的ベンチを用いたLRAGEの検証を行った。
- 参考スコア(独自算出の注目度): 4.799822253865053
- License:
- Abstract: Recently, building retrieval-augmented generation (RAG) systems to enhance the capability of large language models (LLMs) has become a common practice. Especially in the legal domain, previous judicial decisions play a significant role under the doctrine of stare decisis which emphasizes the importance of making decisions based on (retrieved) prior documents. However, the overall performance of RAG system depends on many components: (1) retrieval corpora, (2) retrieval algorithms, (3) rerankers, (4) LLM backbones, and (5) evaluation metrics. Here we propose LRAGE, an open-source tool for holistic evaluation of RAG systems focusing on the legal domain. LRAGE provides GUI and CLI interfaces to facilitate seamless experiments and investigate how changes in the aforementioned five components affect the overall accuracy. We validated LRAGE using multilingual legal benches including Korean (KBL), English (LegalBench), and Chinese (LawBench) by demonstrating how the overall accuracy changes when varying the five components mentioned above. The source code is available at https://github.com/hoorangyee/LRAGE.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の能力を高めるためのRAGシステムの構築が一般的になっている。
特に法的領域では、前回の判決は、(回収された)事前の文書に基づいて決定を行うことの重要性を強調する、決定を凝視する原則の下で重要な役割を担っている。
しかしながら、RAGシステム全体の性能は、(1)検索コーパス、(2)検索アルゴリズム、(3)リランカー、(4)LLMバックボーン、(5)評価指標など、多くのコンポーネントに依存している。
本稿では,法域に着目したRAGシステムの総合評価を行うオープンソースツールLRAGEを提案する。
LRAGEは、シームレスな実験を容易にするGUIとCLIインターフェースを提供し、前述の5つのコンポーネントの変更が全体的な精度にどのように影響するかを調査する。
韓国語(KBL)、英語(LegalBench)、中国語(LawBench)を含む多言語法的ベンチを用いてLRAGEを検証した。
ソースコードはhttps://github.com/hoorangyee/LRAGE.comで入手できる。
関連論文リスト
- Vendi-RAG: Adaptively Trading-Off Diversity And Quality Significantly Improves Retrieval Augmented Generation With LLMs [2.992602379681373]
Vendi-RAGは、検索の多様性と回答の品質を共同で最適化する反復的なプロセスに基づくフレームワークである。
Veddi-RAGは、フレキシブルな類似性に基づく多様性指標であるVendi Score(VS)を活用して、文書検索における意味的多様性を促進する。
Veddi-RAGは従来のシングルステップとマルチステップのRAGアプローチよりも大幅に精度が向上している。
論文 参考訳(メタデータ) (2025-02-16T18:46:10Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain [0.0]
Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。
LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価する。
我々は、法空間内のRAGパイプラインの検索ステップを評価するために特別に設計された最初のベンチマークであるLegalBench-RAGを紹介する。
論文 参考訳(メタデータ) (2024-08-19T18:30:18Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。