論文の概要: Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond
- arxiv url: http://arxiv.org/abs/2503.16040v2
- Date: Mon, 10 Nov 2025 11:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.129508
- Title: Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond
- Title(参考訳): 法的推論のためのテスト時間スケーリングLDMの評価:OpenAI o1、DeepSeek-R1など
- Authors: Yinghao Hu, Yaoyao Yu, Leilei Gan, Bin Wei, Kun Kuang, Fei Wu,
- Abstract要約: 我々は17の中国語および英語の法的タスクにわたる12の大規模言語モデル(LLM)を評価した。
法律分野に特化したオープンソースモデルである Legal-R1 を開発した。
DeepSeek-R1は中国の法的推論において明らかな優位性を示し、OpenAIのo1は英語のタスクで同等の結果を得る。
- 参考スコア(独自算出の注目度): 44.16387138987627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in test-time scaling of large language models (LLMs), exemplified by DeepSeek-R1 and OpenAI's o1, show that extending the chain of thought during inference can significantly improve general reasoning performance. However, the impact of this paradigm on legal reasoning remains insufficiently explored. To address this gap, we present the first systematic evaluation of 12 LLMs, including both reasoning-focused and general-purpose models, across 17 Chinese and English legal tasks spanning statutory and case-law traditions. In addition, we curate a bilingual chain-of-thought dataset for legal reasoning through distillation from DeepSeek-R1 and develop Legal-R1, an open-source model specialized for the legal domain. Experimental results show that Legal-R1 delivers competitive performance across diverse tasks. DeepSeek-R1 exhibits clear advantages in Chinese legal reasoning, while OpenAI's o1 achieves comparable results on English tasks. We further conduct a detailed error analysis, which reveals recurring issues such as outdated legal knowledge, limited capacity for legal interpretation, and susceptibility to factual hallucinations. These findings delineate the main obstacles confronting legal-domain LLMs and suggest promising directions for future research.
- Abstract(参考訳): DeepSeek-R1とOpenAIのo1によって実証された、大規模言語モデル(LLM)のテスト時間スケーリングの最近の進歩は、推論中に思考の連鎖を拡張することで、一般的な推論性能が大幅に向上することを示している。
しかし、このパラダイムが法的理由づけに与える影響はいまだ不十分である。
このギャップに対処するために、我々は、法とケースローの伝統にまたがる17の中国語と英語の法的タスクにおいて、推論に焦点を当てたモデルと汎用モデルの両方を含む12のLLMの体系的評価を初めて提示する。
さらに、DeepSeek-R1からの蒸留を通じて、法的推論のためのバイリンガル連鎖データセットをキュレートし、法域に特化したオープンソースモデルであるLegal-R1を開発する。
実験の結果、Legal-R1は様々なタスクにまたがって競争性能を提供することがわかった。
DeepSeek-R1は中国の法的推論において明らかな優位性を示し、OpenAIのo1は英語のタスクで同等の結果を得る。
さらに, 過去の法律知識, 法的解釈能力の制限, 事実の幻覚への感受性などの繰り返しの問題を明らかにする, 詳細な誤り解析を行う。
これらの知見は,法領域 LLM に直面する主な障害を浮き彫りにし,今後の研究への道筋を示唆するものである。
関連論文リスト
- Ready Jurist One: Benchmarking Language Agents for Legal Intelligence in Dynamic Environments [24.249035670782092]
LLMをベースとしたエージェントに適した,対話型かつダイナミックな法律環境であるJ1-ENVSを紹介する。
環境複雑さの3段階にわたる中国の法律の6つの代表的なシナリオで構成されている。
また、タスクパフォーマンスと手続き的コンプライアンスの両方を評価するために、きめ細かい評価フレームワークであるJ1-EVALを導入します。
論文 参考訳(メタデータ) (2025-07-05T13:31:21Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.550611136062722]
本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。
本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。
我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文 参考訳(メタデータ) (2025-03-24T05:42:05Z) - LexPro-1.0 Technical Report [19.83460019437367]
高度に専門化された中国の法律ドメイン用に設計された大規模言語モデルであるLexPro-1.0について紹介する。
これを解決するために、まず中国31州から20種類以上の犯罪を対象とする数百万件の法的文書を収集し、モデルトレーニングを行った。
このモデルは、さらなる監督なしに大規模な強化学習を行い、推論能力と説明可能性の向上を強調している。
論文 参考訳(メタデータ) (2025-03-10T05:54:23Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation? [3.9018931027384056]
パラマヌ・アイン(Paramanu-Ayn)は、インドの訴訟文書に特化して訓練された法律言語モデルのコレクションである。
Paramanu-Aynは1つのGPU上でわずか185時間、コンテキストサイズ8192のスクラッチから事前トレーニングされた。
論文 参考訳(メタデータ) (2024-03-20T15:39:54Z) - BLT: Can Large Language Models Handle Basic Legal Text? [44.89873147675516]
GPT-4とClaudeは、基本的な法的テキスト処理では性能が良くない。
ベンチマークの粗悪なパフォーマンスは、法的慣行の信頼性を疑うものだ。
トレーニングセットの微調整は、小さなモデルでもほぼ完璧なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。