論文の概要: LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation
- arxiv url: http://arxiv.org/abs/2502.20640v1
- Date: Fri, 28 Feb 2025 01:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:53.513881
- Title: LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation
- Title(参考訳): LexRAG:マルチTurn法会議会話における検索強化生成のベンチマーク
- Authors: Haitao Li, Yifan Chen, Yiran Hu, Qingyao Ai, Junjie Chen, Xiaoyu Yang, Jianhui Yang, Yueyue Wu, Zeyang Liu, Yiqun Liu,
- Abstract要約: Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。
我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
- 参考スコア(独自算出の注目度): 19.633769905100113
- License:
- Abstract: Retrieval-augmented generation (RAG) has proven highly effective in improving large language models (LLMs) across various domains. However, there is no benchmark specifically designed to assess the effectiveness of RAG in the legal domain, which restricts progress in this area. To fill this gap, we propose LexRAG, the first benchmark to evaluate RAG systems for multi-turn legal consultations. LexRAG consists of 1,013 multi-turn dialogue samples and 17,228 candidate legal articles. Each sample is annotated by legal experts and consists of five rounds of progressive questioning. LexRAG includes two key tasks: (1) Conversational knowledge retrieval, requiring accurate retrieval of relevant legal articles based on multi-turn context. (2) Response generation, focusing on producing legally sound answers. To ensure reliable reproducibility, we develop LexiT, a legal RAG toolkit that provides a comprehensive implementation of RAG system components tailored for the legal domain. Additionally, we introduce an LLM-as-a-judge evaluation pipeline to enable detailed and effective assessment. Through experimental analysis of various LLMs and retrieval methods, we reveal the key limitations of existing RAG systems in handling legal consultation conversations. LexRAG establishes a new benchmark for the practical application of RAG systems in the legal domain, with its code and data available at https://github.com/CSHaitao/LexRAG.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
しかしながら、法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはなく、この分野の進歩を制限する。
このギャップを埋めるために,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
LexRAGは1013件の多ターン対話サンプルと17,228件の法定記事で構成されている。
各サンプルは法律の専門家によって注釈付けされ、進歩的質問の5ラウンドで構成されている。
LexRAGには2つの重要な課題がある:(1)会話的知識検索、多ターンコンテキストに基づく関連する法的項目の正確な検索。
2) 法的に健全な回答を生み出すことに焦点を当てた応答生成
信頼性の高い再現性を確保するため,法的ドメインに適したRAGシステムコンポーネントを包括的に実装した法的RAGツールキットであるLexiTを開発した。
さらに, LLM-as-a-judge 評価パイプラインを導入し, 詳細な, 効果的な評価を行う。
各種のLCMと検索手法を実験的に分析した結果,既存のRAGシステムにおける法的相談の扱いにおける鍵となる限界が明らかになった。
LexRAGは法的領域におけるRAGシステムの実用的適用のための新しいベンチマークを確立し、そのコードとデータはhttps://github.com/CSHaitao/LexRAGで公開されている。
関連論文リスト
- NitiBench: A Comprehensive Studies of LLM Frameworks Capabilities for Thai Legal Question Answering [4.61348190872483]
本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-15T17:52:14Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - CitaLaw: Enhancing LLM with Citations in Legal Domain [5.249003454314636]
CitaLaw は LLM が適切な引用で合法的に音声応答を生成できる能力を評価するために設計された最初のベンチマークである。
CitaLawは、法記事の包括的コーパスと、前例をリファレンスプールとして組み合わせた、平民と実践者の両方に多様な法的質問を特徴としている。
論文 参考訳(メタデータ) (2024-12-19T06:14:20Z) - Methods for Legal Citation Prediction in the Age of LLMs: An Australian Law Case Study [9.30538764385435]
我々は、関連する法律や前例を正しく特定し、引用することが重要であるオーストラリアの法律文脈における法的引用予測の問題に焦点を当てる。
本研究は, ドメイン固有の事前訓練だけでは, 法定事前訓練後であっても, 良好な励磁精度が得られていないことを示唆する。
対照的に、タスク固有のデータセットのインストラクションチューニングは、すべての設定で最高の結果に達するパフォーマンスを劇的に向上させます。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain [0.0]
Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。
LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価する。
我々は、法空間内のRAGパイプラインの検索ステップを評価するために特別に設計された最初のベンチマークであるLegalBench-RAGを紹介する。
論文 参考訳(メタデータ) (2024-08-19T18:30:18Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。