論文の概要: A Reasoning-Focused Legal Retrieval Benchmark
- arxiv url: http://arxiv.org/abs/2505.03970v1
- Date: Tue, 06 May 2025 20:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.912382
- Title: A Reasoning-Focused Legal Retrieval Benchmark
- Title(参考訳): Reasoning-Focused Legal Retrievalベンチマーク
- Authors: Lucia Zheng, Neel Guha, Javokhir Arifov, Sarah Zhang, Michal Skreta, Christopher D. Manning, Peter Henderson, Daniel E. Ho,
- Abstract要約: 本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
- 参考スコア(独自算出の注目度): 28.607778538115642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the legal community increasingly examines the use of large language models (LLMs) for various legal applications, legal AI developers have turned to retrieval-augmented LLMs ("RAG" systems) to improve system performance and robustness. An obstacle to the development of specialized RAG systems is the lack of realistic legal RAG benchmarks which capture the complexity of both legal retrieval and downstream legal question-answering. To address this, we introduce two novel legal RAG benchmarks: Bar Exam QA and Housing Statute QA. Our tasks correspond to real-world legal research tasks, and were produced through annotation processes which resemble legal research. We describe the construction of these benchmarks and the performance of existing retriever pipelines. Our results suggest that legal RAG remains a challenging application, thus motivating future research.
- Abstract(参考訳): 法的なコミュニティは、様々な法的な応用に大規模言語モデル(LLM)を使用することをますます検討しているため、法的なAI開発者は、システムパフォーマンスと堅牢性を改善するために、検索強化されたLLM("RAG"システム)に目を向けている。
専門的なRAGシステムを開発する上での障害は、法的検索と下流の法的問合せの複雑さを捉える、現実的な法的RAGベンチマークの欠如である。
これを解決するために、Bar Exam QAとHousing Statute QAという2つの新しい法的RAGベンチマークを導入する。
我々のタスクは現実世界の法律研究のタスクに対応しており、法律研究に類似したアノテーションプロセスを通じて作成されました。
本稿では,これらのベンチマークの構築と既存の検索パイプラインの性能について述べる。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
関連論文リスト
- LegalRAG: A Hybrid RAG System for Multilingual Legal Information Retrieval [7.059964549363294]
我々は、規制文書、特にバングラデシュ警察ガゼットのための効率的なバイリンガル質問応答フレームワークを開発する。
提案手法では,情報検索と応答生成を強化するために,現代の検索拡張生成(RAG)パイプラインを用いる。
このシステムは、特定の政府法的な通知を効率的に検索し、法的な情報をよりアクセスしやすくする。
論文 参考訳(メタデータ) (2025-04-19T06:09:54Z) - A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and Experiences [76.73731245899454]
本稿では,階層的なファクトラム,証拠,暗黙的な経験に富む透明な法理推論スキーマを提案する。
このスキーマにインスパイアされた課題は、テキストのケース記述を取り込み、最終決定を正当化する階層構造を出力する。
このベンチマークは、Intelligent Courtにおける透明で説明可能なAI支援法推論の道を開く」。
論文 参考訳(メタデータ) (2025-03-02T10:26:54Z) - LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation [19.633769905100113]
Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。
我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:46:32Z) - NitiBench: A Comprehensive Study of LLM Framework Capabilities for Thai Legal Question Answering [4.61348190872483]
本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-15T17:52:14Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。