論文の概要: LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2504.02590v1
- Date: Thu, 03 Apr 2025 13:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:01.284388
- Title: LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning
- Title(参考訳): LexPam: 数学的推論による法的手続き
- Authors: Kepu Zhang, Guofu Xie, Weijie Yu, Mingyue Xu, Xu Tang, Yaxin Li, Jun Xu,
- Abstract要約: 既存の法的LLMは一般的な司法質問応答を行うことができるが、それらの数学的推論能力は訓練されていない。
現在、法的文脈におけるLLMの推論能力の検証と強化を支援する法的数学的推論データセットが欠如している。
我々は、LexPamという、法的手続き的認知によって導かれる強化学習アルゴリズムを導入し、法的シナリオにおける数学的推論能力を向上させる。
- 参考スコア(独自算出の注目度): 12.90492832643565
- License:
- Abstract: The legal mathematical reasoning ability of LLMs is crucial when applying them to real-world scenarios, as it directly affects the credibility of the LLM. While existing legal LLMs can perform general judicial question answering, their legal mathematical reasoning capabilities have not been trained. Open-domain reasoning models, though able to generate detailed calculation steps, do not follow the reasoning logic required for legal scenarios. Additionally, there is currently a lack of legal mathematical reasoning datasets to help validate and enhance LLMs' reasoning abilities in legal contexts. To address these issues, we propose the first Chinese legal Mathematical Reasoning Dataset, LexNum, which includes three common legal mathematical reasoning scenarios: economic compensation, work injury compensation, and traffic accident compensation. Based on LexNum, we tested the performance of existing legal LLMs and reasoning LLMs, and introduced LexPam, a reinforcement learning algorithm guided by legal procedural awareness to train LLMs, enhancing their mathematical reasoning abilities in legal scenarios. Experiments on tasks in the three legal scenarios show that the performance of existing legal LLMs and reasoning models in legal mathematical reasoning tasks is unsatisfactory. LexPam can enhance the LLM's ability in these tasks.
- Abstract(参考訳): LLMの法的数学的推論能力は、LLMの信頼性に直接影響するため、現実のシナリオに適用する場合に不可欠である。
既存の法的LLMは一般的な司法的質問応答を行うことができるが、法的数学的推論能力は訓練されていない。
オープンドメイン推論モデルは、詳細な計算ステップを生成することができるが、法的シナリオに必要な推論ロジックに従わない。
加えて、法的文脈におけるLLMの推論能力の検証と強化を支援する法的数学的推論データセットが現在存在しない。
これらの問題に対処するため、我々は、経済補償、労働傷害補償、交通事故補償の3つの一般的な数学的推論シナリオを含む、最初の中国の法定数学的推論データセットであるLexNumを提案する。
LexNumをベースとしたLexPamは,従来の法的なLLMの性能を検証し,法的なシナリオにおける数学的推論能力を向上させるために,法的な手続き的認識によって指導される強化学習アルゴリズムである。
3つの法的シナリオにおけるタスクの実験は、法的な数学的推論タスクにおける既存の法的LCMのパフォーマンスと推論モデルが満足できないことを示している。
LexPamはこれらのタスクにおけるLLMの能力を高めることができる。
関連論文リスト
- Artificial Intelligence and Legal Analysis: Implications for Legal Education and the Profession [0.0]
本稿では,法的および非法的大規模言語モデルが法的解析を行う能力について検討した結果を報告する。
その結果, LLMは基本的なIRAC分析を行うことができるが, 詳細を欠いた短時間の応答, 回答にコミットできないこと, 虚偽の自信, 幻覚によって制限されることがわかった。
論文 参考訳(メタデータ) (2025-02-04T19:50:48Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration [27.047809869136458]
大きな言語モデル(LLM)は、法的理論を完全に理解し、法的推論タスクを実行するのに苦労する可能性がある。
法理論と推論能力に対するLLMの理解をよりよく評価するための課題(電荷予測の解釈)を導入する。
複雑な法的推論機能を改善するためのマルチエージェントフレームワークも提案する。
論文 参考訳(メタデータ) (2024-10-03T14:15:00Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。