論文の概要: KoBLEX: Open Legal Question Answering with Multi-hop Reasoning
- arxiv url: http://arxiv.org/abs/2509.01324v1
- Date: Mon, 01 Sep 2025 10:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.637741
- Title: KoBLEX: Open Legal Question Answering with Multi-hop Reasoning
- Title(参考訳): KoBLEX:マルチホップ推論によるオープンな法的質問
- Authors: Jihyung Lee, Daehui Kim, Seonjeong Hwang, Hyounghun Kim, Gary Lee,
- Abstract要約: 韓国法定説明可能QA(KoBLEX)ベンチマークについて紹介する。
KoBLEXは、プロビジョニングされたマルチホップの法的推論を評価するように設計されている。
ParSeR (Parametric provision-guided Selection Retrieval) という手法も提案する。
- 参考スコア(独自算出の注目度): 12.122913185860634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) have achieved remarkable performances in general domains and are now extending into the expert domain of law. Several benchmarks have been proposed to evaluate LLMs' legal capabilities. However, these benchmarks fail to evaluate open-ended and provision-grounded Question Answering (QA). To address this, we introduce a Korean Benchmark for Legal EXplainable QA (KoBLEX), designed to evaluate provision-grounded, multi-hop legal reasoning. KoBLEX includes 226 scenario-based QA instances and their supporting provisions, created using a hybrid LLM-human expert pipeline. We also propose a method called Parametric provision-guided Selection Retrieval (ParSeR), which uses LLM-generated parametric provisions to guide legally grounded and reliable answers. ParSeR facilitates multi-hop reasoning on complex legal questions by generating parametric provisions and employing a three-stage sequential retrieval process. Furthermore, to better evaluate the legal fidelity of the generated answers, we propose Legal Fidelity Evaluation (LF-Eval). LF-Eval is an automatic metric that jointly considers the question, answer, and supporting provisions and shows a high correlation with human judgments. Experimental results show that ParSeR consistently outperforms strong baselines, achieving the best results across multiple LLMs. Notably, compared to standard retrieval with GPT-4o, ParSeR achieves +37.91 higher F1 and +30.81 higher LF-Eval. Further analyses reveal that ParSeR efficiently delivers consistent performance across reasoning depths, with ablations confirming the effectiveness of ParSeR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的なドメインで顕著なパフォーマンスを達成し、現在は専門家の法律領域に拡張されています。
LLMの法的な能力を評価するために、いくつかのベンチマークが提案されている。
しかし、これらのベンチマークは、オープンエンドおよびプロビジョニンググラウンドの質問回答(QA)の評価に失敗している。
そこで本研究では,韓国法定法定法定QA(KoBLEX)について,規定に基づくマルチホップ法定QA(KoBLEX)を提案する。
KoBLEXには、226のシナリオベースのQAインスタンスと、ハイブリッドLLM-ヒューマンエキスパートパイプラインを使用して作成されるサポート条項が含まれている。
また,LLM生成パラメトリック法を用いて,法的根拠と信頼性のある回答を導出するParSeR(Parmetric provision-guided Selection Retrieval)を提案する。
ParSeRは、パラメトリックな規定を生成し、3段階のシーケンシャル検索プロセスを採用することで、複雑な法的問題に対するマルチホップ推論を容易にする。
さらに,得られた回答の法的忠実度をよりよく評価するために,法的な忠実度評価(LF-Eval)を提案する。
LF-Evalは、質問、回答、サポート条項を共同で考慮し、人間の判断と高い相関を示す自動計量である。
実験の結果、ParSeRは強いベースラインを一貫して上回り、複数のLLMで最高の結果が得られることがわかった。
特に、GPT-4oによる標準的な検索と比較して、ParSeRは+37.91高いF1と+30.81高いLF-Evalを達成している。
さらに解析した結果,ParSeRは推論深度にわたって効率よく一貫した性能を実現し,AblationsはParSeRの有効性を確認した。
関連論文リスト
- LegalMALR:Multi-Agent Query Understanding and LLM-Based Reranking for Chinese Statute Retrieval [10.997604609194033]
法定検索は法的援助と司法決定支援に不可欠である。
現実の法的なクエリは暗黙的で、複数発行され、口語または未特定の形で表現されることが多い。
本稿では,マルチエージェントクエリ理解システムとゼロショット大文字生成モジュールを統合した検索フレームワークであるLegalMALRを提案する。
論文 参考訳(メタデータ) (2026-01-25T04:44:56Z) - PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - Benchmarking Multi-Step Legal Reasoning and Analyzing Chain-of-Thought Effects in Large Language Models [8.769542756426786]
我々は,M SLRを紹介した。これは,実世界の司法判断に基礎を置いた,中国初の多段階の法的推論データセットである。
M SLR は IRAC フレームワーク (Issue, Rule, Application, Conclusion) を採用し、公式な法的文書からの構造化専門家の推論をモデル化している。
我々は,ステップレベルの詳細な推論アノテーションを効率よく生成する,スケーラブルなHuman-LLM協調アノテーションパイプラインを設計する。
さらなる実験では、モデルによって生成される自己開始型チェーン・オブ・ワットプロンプトが、推論のコヒーレンスと品質を自律的に改善し、人間によって設計されたプロンプトを上回ることが示されている。
論文 参考訳(メタデータ) (2025-11-11T08:45:29Z) - A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation [63.76972456980632]
効率的なMLLM評価のためのマルチツーワンインタビューパラダイムを提案する。
本フレームワークは, (i) 事前面接と形式面接の2段階面接戦略, (ii) 公平性を確保するための重みの動的調整, (iii) 質問難度選択のための適応的メカニズムから構成される。
論文 参考訳(メタデータ) (2025-09-18T12:07:40Z) - Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering? [7.42457277619017]
本稿では,タイの法的な質問応答システムと,法的な引用精度の向上と応答品質の向上を両立させるアプローチを提案する。
提案手法は,BGE-M3埋め込みをコスト効率の良いセマンティック・類似性報酬として活用する。
NitiBenchベンチマークの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-07-13T14:05:48Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation [19.633769905100113]
Retrieval-augmented Generation (RAG) は、様々な領域にわたる大規模言語モデル(LLM)の改善に非常に効果的であることが証明されている。
法的領域におけるRAGの有効性を評価するために特別に設計されたベンチマークはない。
我々は,マルチターン法定コンサルテーションのためのRAGシステムを評価する最初のベンチマークであるLexRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:46:32Z) - LegalBench.PT: A Benchmark for Portuguese Law [17.554201334646056]
ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。
まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
論文 参考訳(メタデータ) (2025-02-22T21:07:12Z) - Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。
次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。