論文の概要: KoBLEX: Open Legal Question Answering with Multi-hop Reasoning
- arxiv url: http://arxiv.org/abs/2509.01324v1
- Date: Mon, 01 Sep 2025 10:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.637741
- Title: KoBLEX: Open Legal Question Answering with Multi-hop Reasoning
- Title(参考訳): KoBLEX:マルチホップ推論によるオープンな法的質問
- Authors: Jihyung Lee, Daehui Kim, Seonjeong Hwang, Hyounghun Kim, Gary Lee,
- Abstract要約: 韓国法定説明可能QA(KoBLEX)ベンチマークについて紹介する。
KoBLEXは、プロビジョニングされたマルチホップの法的推論を評価するように設計されている。
ParSeR (Parametric provision-guided Selection Retrieval) という手法も提案する。
- 参考スコア(独自算出の注目度): 12.122913185860634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) have achieved remarkable performances in general domains and are now extending into the expert domain of law. Several benchmarks have been proposed to evaluate LLMs' legal capabilities. However, these benchmarks fail to evaluate open-ended and provision-grounded Question Answering (QA). To address this, we introduce a Korean Benchmark for Legal EXplainable QA (KoBLEX), designed to evaluate provision-grounded, multi-hop legal reasoning. KoBLEX includes 226 scenario-based QA instances and their supporting provisions, created using a hybrid LLM-human expert pipeline. We also propose a method called Parametric provision-guided Selection Retrieval (ParSeR), which uses LLM-generated parametric provisions to guide legally grounded and reliable answers. ParSeR facilitates multi-hop reasoning on complex legal questions by generating parametric provisions and employing a three-stage sequential retrieval process. Furthermore, to better evaluate the legal fidelity of the generated answers, we propose Legal Fidelity Evaluation (LF-Eval). LF-Eval is an automatic metric that jointly considers the question, answer, and supporting provisions and shows a high correlation with human judgments. Experimental results show that ParSeR consistently outperforms strong baselines, achieving the best results across multiple LLMs. Notably, compared to standard retrieval with GPT-4o, ParSeR achieves +37.91 higher F1 and +30.81 higher LF-Eval. Further analyses reveal that ParSeR efficiently delivers consistent performance across reasoning depths, with ablations confirming the effectiveness of ParSeR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的なドメインで顕著なパフォーマンスを達成し、現在は専門家の法律領域に拡張されています。
LLMの法的な能力を評価するために、いくつかのベンチマークが提案されている。
しかし、これらのベンチマークは、オープンエンドおよびプロビジョニンググラウンドの質問回答(QA)の評価に失敗している。
そこで本研究では,韓国法定法定法定QA(KoBLEX)について,規定に基づくマルチホップ法定QA(KoBLEX)を提案する。
KoBLEXには、226のシナリオベースのQAインスタンスと、ハイブリッドLLM-ヒューマンエキスパートパイプラインを使用して作成されるサポート条項が含まれている。
また,LLM生成パラメトリック法を用いて,法的根拠と信頼性のある回答を導出するParSeR(Parmetric provision-guided Selection Retrieval)を提案する。
ParSeRは、パラメトリックな規定を生成し、3段階のシーケンシャル検索プロセスを採用することで、複雑な法的問題に対するマルチホップ推論を容易にする。
さらに,得られた回答の法的忠実度をよりよく評価するために,法的な忠実度評価(LF-Eval)を提案する。
LF-Evalは、質問、回答、サポート条項を共同で考慮し、人間の判断と高い相関を示す自動計量である。
実験の結果、ParSeRは強いベースラインを一貫して上回り、複数のLLMで最高の結果が得られることがわかった。
特に、GPT-4oによる標準的な検索と比較して、ParSeRは+37.91高いF1と+30.81高いLF-Evalを達成している。
さらに解析した結果,ParSeRは推論深度にわたって効率よく一貫した性能を実現し,AblationsはParSeRの有効性を確認した。
関連論文リスト
- Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering? [7.42457277619017]
本稿では,タイの法的な質問応答システムと,法的な引用精度の向上と応答品質の向上を両立させるアプローチを提案する。
提案手法は,BGE-M3埋め込みをコスト効率の良いセマンティック・類似性報酬として活用する。
NitiBenchベンチマークの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-07-13T14:05:48Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation [19.633769905100113]
Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。
我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:46:32Z) - LegalBench.PT: A Benchmark for Portuguese Law [17.554201334646056]
ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。
まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
論文 参考訳(メタデータ) (2025-02-22T21:07:12Z) - Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。
次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。