論文の概要: Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics
- arxiv url: http://arxiv.org/abs/2512.01020v1
- Date: Sun, 30 Nov 2025 18:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.543537
- Title: Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics
- Title(参考訳): 法律問題木ルービックを用いた法律推論トレースの評価
- Authors: Jinu Lee, Kyoung-Woon On, Simeng Han, Arman Cohan, Julia Hockenmaier,
- Abstract要約: LEGIT(LEGal Issue Trees)は,新しい大規模(24Kインスタンス)の専門家レベルの法的推論データセットである。
我々は、裁判判決を、当事者の議論と裁判所の結論の階層的な木に変換する。
- 参考スコア(独自算出の注目度): 49.3262123849242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of LLM-generated reasoning traces in expert domains (e.g., law) is essential for ensuring credibility and explainability, yet remains challenging due to the inherent complexity of such reasoning tasks. We introduce LEGIT (LEGal Issue Trees), a novel large-scale (24K instances) expert-level legal reasoning dataset with an emphasis on reasoning trace evaluation. We convert court judgments into hierarchical trees of opposing parties' arguments and the court's conclusions, which serve as rubrics for evaluating the issue coverage and correctness of the reasoning traces. We verify the reliability of these rubrics via human expert annotations and comparison with coarse, less informative rubrics. Using the LEGIT dataset, we show that (1) LLMs' legal reasoning ability is seriously affected by both legal issue coverage and correctness, and that (2) retrieval-augmented generation (RAG) and RL with rubrics bring complementary benefits for legal reasoning abilities, where RAG improves overall reasoning capability, whereas RL improves correctness albeit with reduced coverage.
- Abstract(参考訳): 専門家ドメイン(例えば法則)におけるLLM生成推論の質を評価することは、信頼性と説明可能性を保証するために不可欠であるが、そのような推論タスクの本質的な複雑さのため、依然として困難である。
LEGIT(LEGal Issue Trees)は,新たな大規模(24Kインスタンス)の法定推論データセットである。
我々は、裁判判決を、当事者の議論と裁判所の結論の階層的な木に変換する。
我々は,これらのルーリックの信頼性を,人間の専門家による注釈を用いて検証し,粗雑で情報に乏しいルーリックとの比較を行った。
LEGITデータセットを用いて,(1)LLMの法的推論能力は法的な問題カバレッジと正当性の両方に深刻な影響を受けており,(2)検索強化世代(RAG)とRLは法的な推論能力に相補的利益をもたらし,RAGは全体的な推論能力を改善する一方,RLは適用範囲を減らして正当性を改善する。
関連論文リスト
- CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis [13.067377421250557]
大規模言語モデル (LLM) は、法的テキストを分析し、関連する法令を引用するタスクが増えている。
本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
論文 参考訳(メタデータ) (2025-09-25T14:19:51Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - LegalReasoner: Step-wised Verification-Correction for Legal Judgment Reasoning [25.808321575139537]
法的判断予測(LJP)は、事件の主張や事実に基づいて最終判決を下すことによって裁判官として機能することを目的としている。
本稿では,段階的検証と推論プロセスの修正によりLJPの信頼性を向上させるLegalReasonerを提案する。
香港の58,130件の判例を含むLegalHKデータセットを公開し、紛争点の詳細なアノテーション、ステップバイステップの推論チェーン、プロセス検証ラベルを含む。
論文 参考訳(メタデータ) (2025-06-09T05:48:35Z) - RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:50:21Z) - Incorporating Legal Structure in Retrieval-Augmented Generation: A Case Study on Copyright Fair Use [44.99833362998488]
本稿では,米国著作権法におけるフェアユース・ドクトリンに合わせて,ドメイン固有のRetrieval-Augmented Generationの実装を提案する。
DMCA削除の頻度の増加とコンテンツクリエーターにとってアクセス可能な法的支援の欠如により、我々は、セマンティック検索と法知識グラフと裁判所引用ネットワークを組み合わせて、検索品質と推論信頼性を向上させる構造的アプローチを提案する。
論文 参考訳(メタデータ) (2025-05-04T15:53:49Z) - A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and Experiences [76.73731245899454]
本稿では,階層的なファクトラム,証拠,暗黙的な経験に富む透明な法理推論スキーマを提案する。
このスキーマにインスパイアされた課題は、テキストのケース記述を取り込み、最終決定を正当化する階層構造を出力する。
このベンチマークは、Intelligent Courtにおける透明で説明可能なAI支援法推論の道を開く」。
論文 参考訳(メタデータ) (2025-03-02T10:26:54Z) - Artificial Intelligence and Legal Analysis: Implications for Legal Education and the Profession [0.0]
本稿では,法的および非法的大規模言語モデルが法的解析を行う能力について検討した結果を報告する。
その結果, LLMは基本的なIRAC分析を行うことができるが, 詳細を欠いた短時間の応答, 回答にコミットできないこと, 虚偽の自信, 幻覚によって制限されることがわかった。
論文 参考訳(メタデータ) (2025-02-04T19:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。