論文の概要: Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative Inference
- arxiv url: http://arxiv.org/abs/2510.10072v1
- Date: Sat, 11 Oct 2025 07:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.765359
- Title: Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative Inference
- Title(参考訳): Unilaw-R1:強化学習と反復推論による法律推論のための大規模言語モデル
- Authors: Hua Cai, Shuang Zhao, Liang Zhang, Xuli Shen, Qing Xu, Weilin Shen, Zihao Wen, Tianke Ban,
- Abstract要約: 法的な推論に適した大規模言語モデルであるUnilaw-R1を紹介する。
軽量な7ビリオンパラメータスケールにより、Unilaw-R1はデプロイメントコストを大幅に削減する。
法律分野では、不十分な法的知識、信頼できない推論論理、弱いビジネス一般化の3つの主要な課題に取り組む。
- 参考スコア(独自算出の注目度): 15.567885200167913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-focused large language models (LLMs) are rapidly evolving across various domains, yet their capabilities in handling complex legal problems remains underexplored. In this paper, we introduce Unilaw-R1, a large language model tailored for legal reasoning. With a lightweight 7-billion parameter scale, Unilaw-R1 significantly reduces deployment cost while effectively tackling three core challenges in the legal domain: insufficient legal knowledge, unreliable reasoning logic, and weak business generalization. To address these issues, we first construct Unilaw-R1-Data, a high-quality dataset containing 17K distilled and screened chain-of-thought (CoT) samples. Based on this, we adopt a two-stage training strategy combining Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), which significantly boosts the performance on complex legal reasoning tasks and supports interpretable decision-making in legal AI applications. To assess legal reasoning ability, we also introduce Unilaw-R1-Eval, a dedicated benchmark designed to evaluate models across single- and multi-choice legal tasks. Unilaw-R1 demonstrates strong results on authoritative benchmarks, outperforming all models of similar scale and achieving performance on par with the much larger DeepSeek-R1-Distill-Qwen-32B (54.9%). Following domain-specific training, it also showed significant gains on LawBench and LexEval, exceeding Qwen-2.5-7B-Instruct (46.6%) by an average margin of 6.6%.
- Abstract(参考訳): 推論にフォーカスした大規模言語モデル(LLM)は、様々な領域で急速に進化している。
本稿では,法律推論に適した大規模言語モデルUnilaw-R1を紹介する。
軽量な7ビリオンパラメータスケールでは、Unilaw-R1は、法的領域における3つの主要な課題(不十分な法的知識、信頼性の低い推論ロジック、弱いビジネス一般化)に対処しながら、デプロイメントコストを著しく削減する。
これらの問題に対処するために、我々はまず17K蒸留およびスクリーニングされたCoTサンプルを含む高品質なデータセットであるUnilaw-R1-Dataを構築した。
これに基づいて、Supervised Fine-Tuning(SFT)とReinforcement Learning(RL)を組み合わせた2段階のトレーニング戦略を採用し、複雑な法的推論タスクのパフォーマンスを大幅に向上させ、法的なAIアプリケーションにおける解釈可能な意思決定を支援する。
法的な推論能力を評価するために、単一および複数選択の法的なタスクのモデルを評価するために設計された専用ベンチマークであるUnilaw-R1-Evalも導入する。
Unilaw-R1は権威ベンチマークにおいて強力な結果を示し、同様のスケールの全モデルより優れ、さらに大きなDeepSeek-R1-Distill-Qwen-32B (54.9%)と同等のパフォーマンスを達成した。
ドメイン固有の訓練の結果、LawBenchとLexEvalはQwen-2.5-7B-Instruct (46.6%)を平均6.6%で上回った。
関連論文リスト
- Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering? [7.42457277619017]
本稿では,タイの法的な質問応答システムと,法的な引用精度の向上と応答品質の向上を両立させるアプローチを提案する。
提案手法は,BGE-M3埋め込みをコスト効率の良いセマンティック・類似性報酬として活用する。
NitiBenchベンチマークの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-07-13T14:05:48Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation [9.894351313663874]
LCR(Lawal Case Retrieval)は、法律専門家の基本的な課題である。
LCRに関する既存の研究は2つの大きな制限に直面している。
まず,比較的小規模な検索コーパスを用いて評価を行った。
第二に、埋め込み方式や語彙マッチング方式への依存は、しばしば限定的な表現と法的に無関係な一致をもたらす。
論文 参考訳(メタデータ) (2025-05-28T09:02:41Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond [29.03425022434831]
テスト時間スケーリング 大規模言語モデル(LLM)は、様々なドメインやタスク、特に推論において、例外的な機能を示している。
各種法シナリオにおけるLCMの予備的評価について,中国語と英語の両方の法的課題について述べる。
以上の結果から,DeepSeek-R1 と OpenAI o1 が最強モデルであるにもかかわらず,法的理由付け能力は依然として不足していることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T11:14:39Z) - LexPro-1.0 Technical Report [19.83460019437367]
高度に専門化された中国の法律ドメイン用に設計された大規模言語モデルであるLexPro-1.0について紹介する。
これを解決するために、まず中国31州から20種類以上の犯罪を対象とする数百万件の法的文書を収集し、モデルトレーニングを行った。
このモデルは、さらなる監督なしに大規模な強化学習を行い、推論能力と説明可能性の向上を強調している。
論文 参考訳(メタデータ) (2025-03-10T05:54:23Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation? [3.9018931027384056]
パラマヌ・アイン(Paramanu-Ayn)は、インドの訴訟文書に特化して訓練された法律言語モデルのコレクションである。
Paramanu-Aynは1つのGPU上でわずか185時間、コンテキストサイズ8192のスクラッチから事前トレーニングされた。
論文 参考訳(メタデータ) (2024-03-20T15:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。