論文の概要: Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.02590v2
- Date: Sat, 07 Jun 2025 07:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.938527
- Title: Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning
- Title(参考訳): LLMを用いた法的数学的推論:2段階強化学習による手続き的アライメント
- Authors: Kepu Zhang, Guofu Xie, Weijie Yu, Mingyue Xu, Xu Tang, Yaxin Li, Jun Xu,
- Abstract要約: 法的な数学的推論は、大規模言語モデル(LLM)を高い法的文脈に適用するために不可欠である。
中国初の法的数学的推論ベンチマークであるLexNumを提示する。
また、効率的な法的推論訓練のための2段階強化学習フレームワークであるLexPamを提案する。
- 参考スコア(独自算出の注目度): 12.90492832643565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal mathematical reasoning is essential for applying large language models (LLMs) in high-stakes legal contexts, where outputs must be both mathematically accurate and procedurally compliant. However, existing legal LLMs lack structured numerical reasoning, and open-domain models, though capable of calculations, often overlook mandatory legal steps. To address this, we present LexNum, the first Chinese legal mathematical reasoning benchmark, covering three representative scenarios where each instance reflects legally grounded procedural flows. We further propose LexPam, a two-stage reinforcement learning framework for efficient legal reasoning training. Leveraging curriculum learning, we use a stronger teacher model to partition data into basic and challenging subsets. A lightweight 1.5B student model is then fine-tuned with Group Relative Policy Optimization, which avoids costly value networks and enables stable training from sparse, end-of-sequence rewards. The first stage improves accuracy and format; the second introduces a novel reward to guide procedural alignment via task-specific legal elements. Experiments show that existing models perform poorly on LexNum, while LexPam enhances both mathematical accuracy and legal coherence, and generalizes effectively across tasks and domains.
- Abstract(参考訳): 法的な数学的推論は、大規模言語モデル(LLM)を高度な法的文脈に適用するために必須であり、出力は数学的に正確かつ手続き的に準拠しなければならない。
しかし、既存の法的 LLM には構造化された数値推論が欠けており、計算能力はあるものの、しばしば強制的な法的手順を見落としている。
これを解決するために、最初の中国の法的な数学的推論ベンチマークであるLexNumを紹介し、各インスタンスが法的に根拠付けられた手続きフローを反映する3つの代表的なシナリオを取り上げる。
さらに、効率的な法的推論訓練のための2段階強化学習フレームワークであるLexPamを提案する。
カリキュラム学習を活用することで、より強力な教師モデルを使用して、データを基本的で困難なサブセットに分割します。
軽量1.5Bの学生モデルはグループ相対的ポリシー最適化によって微調整される。
第1段では精度とフォーマットが向上し、第2段ではタスク固有の法的要素を通じて手続き的アライメントをガイドする新たな報酬が導入されている。
実験により、既存のモデルはLexNumでは性能が悪く、一方、LexPamは数学的精度と法的なコヒーレンスの両方を高め、タスクやドメインにわたって効果的に一般化する。
関連論文リスト
- Artificial Intelligence and Legal Analysis: Implications for Legal Education and the Profession [0.0]
本稿では,法的および非法的大規模言語モデルが法的解析を行う能力について検討した結果を報告する。
その結果, LLMは基本的なIRAC分析を行うことができるが, 詳細を欠いた短時間の応答, 回答にコミットできないこと, 虚偽の自信, 幻覚によって制限されることがわかった。
論文 参考訳(メタデータ) (2025-02-04T19:50:48Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration [27.047809869136458]
大きな言語モデル(LLM)は、法的理論を完全に理解し、法的推論タスクを実行するのに苦労する可能性がある。
法理論と推論能力に対するLLMの理解をよりよく評価するための課題(電荷予測の解釈)を導入する。
複雑な法的推論機能を改善するためのマルチエージェントフレームワークも提案する。
論文 参考訳(メタデータ) (2024-10-03T14:15:00Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - BLT: Can Large Language Models Handle Basic Legal Text? [44.89873147675516]
GPT-4とClaudeは、基本的な法的テキスト処理では性能が良くない。
ベンチマークの粗悪なパフォーマンスは、法的慣行の信頼性を疑うものだ。
トレーニングセットの微調整は、小さなモデルでもほぼ完璧なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。