論文の概要: LegalDrill: Diagnosis-Driven Synthesis for Legal Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2604.23809v1
- Date: Sun, 26 Apr 2026 17:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.564187
- Title: LegalDrill: Diagnosis-Driven Synthesis for Legal Reasoning in Small Language Models
- Title(参考訳): LegalDrill:小言語モデルにおける法理推論のための診断駆動合成
- Authors: Tianchun Li, Haochen Liu, Vishwa Pardeshi, Xingchen Wang, Tianci Liu, Huijun Zhao, Wei Fan, Jing Gao,
- Abstract要約: 小型言語モデル(SLM)は、その効率性と運用コストの低さから、実世界の展開を約束している。
LegalDrillは診断駆動のフレームワークで、有能な教師から推論の軌跡を抽出し、反復的に洗練する。
いくつかの法的なベンチマークの実験では、LegalDrillは代表的SLMの法的な推論能力を著しく強化している。
- 参考スコア(独自算出の注目度): 20.07418966264218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small language models (SLMs) are promising for real-world deployment due to their efficiency and low operational cost. However, their limited capacity struggles with high-stakes legal reasoning tasks that require coherent statute interpretation and logically consistent deduction. Furthermore, training SLMs for such tasks demands high-quality, concise reasoning trajectories, which are prohibitively expensive to manually collect and difficult to curate via standard rejection sampling, lacking granularity beyond final verdicts. To address these challenges, we propose {LegalDrill}, a diagnosis-driven synthesis framework that extracts and iteratively refines reasoning trajectories from a capable teacher via fine-grained prompting, then a self-reflective verification is employed to adaptively select the most effective data for the SLM student. The resulting data empower SLM training through supervised fine-tuning and direct preference optimization. Extensive experiments on several legal benchmarks demonstrate that {LegalDrill} significantly bolsters the legal reasoning capabilities of representative SLMs while bypassing the need for scarce expert annotations, paving a scalable path toward practical legal reasoning systems.
- Abstract(参考訳): 小型言語モデル(SLM)は、その効率性と運用コストの低さから、実世界の展開を約束している。
しかし、その限られた能力は、一貫性のある法解釈と論理的に一貫した推論を必要とする高い法的推論タスクに苦しむ。
さらに、そのようなタスクのためのSLMのトレーニングには高品質で簡潔な推論軌道が必要であり、これは手作業による収集が困難で、標準の拒絶サンプリングによるキュレートが困難であり、最終的な評定以上の粒度が欠如している。
これらの課題に対処するため,本研究では,SLM の学生にとって最も効果的なデータを適応的に選択するための自己回帰的検証手法である {LegalDrill} を提案する。
その結果、教師付き微調整と直接選好最適化によってSLMトレーニングが強化される。
いくつかの法的なベンチマークに関する大規模な実験では、<LegalDrill>は、専門家のアノテーションの不足を回避し、実用的な法的な推論システムへのスケーラブルな道を開く一方で、代表的SLMの法的推論能力を著しく向上させることを示した。
関連論文リスト
- Benchmarking Multi-Step Legal Reasoning and Analyzing Chain-of-Thought Effects in Large Language Models [8.769542756426786]
我々は,M SLRを紹介した。これは,実世界の司法判断に基礎を置いた,中国初の多段階の法的推論データセットである。
M SLR は IRAC フレームワーク (Issue, Rule, Application, Conclusion) を採用し、公式な法的文書からの構造化専門家の推論をモデル化している。
我々は,ステップレベルの詳細な推論アノテーションを効率よく生成する,スケーラブルなHuman-LLM協調アノテーションパイプラインを設計する。
さらなる実験では、モデルによって生成される自己開始型チェーン・オブ・ワットプロンプトが、推論のコヒーレンスと品質を自律的に改善し、人間によって設計されたプロンプトを上回ることが示されている。
論文 参考訳(メタデータ) (2025-11-11T08:45:29Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。