論文の概要: Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain
- arxiv url: http://arxiv.org/abs/2508.12281v1
- Date: Sun, 17 Aug 2025 08:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.657977
- Title: Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain
- Title(参考訳): 法律$Δ$:Chain-of-Thought Guided Information Gainを用いた強化学習によるLLMにおける法的推論の促進
- Authors: Xin Dai, Buqiang Xu, Zhenghao Liu, Yukun Yan, Huiyuan Xie, Xiaoyuan Yi, Shuo Wang, Ge Yu,
- Abstract要約: 我々は、チェーン・オブ・インフォメーションによる法的推論を強化するために、Legal$Delta$を提案する。
Legal$Delta$はデュアルモードの入力設定と直接応答と推論拡張モードを使用する。
ラベル付き嗜好データに頼ることなく、一貫してより堅牢で信頼できる法的判断を下す。
- 参考スコア(独自算出の注目度): 21.20249684727035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal Artificial Intelligence (LegalAI) has achieved notable advances in automating judicial decision-making with the support of Large Language Models (LLMs). However, existing legal LLMs still struggle to generate reliable and interpretable reasoning processes. They often default to fast-thinking behavior by producing direct answers without explicit multi-step reasoning, limiting their effectiveness in complex legal scenarios that demand rigorous justification. To address this challenge, we propose Legal$\Delta$, a reinforcement learning framework designed to enhance legal reasoning through chain-of-thought guided information gain. During training, Legal$\Delta$ employs a dual-mode input setup-comprising direct answer and reasoning-augmented modes-and maximizes the information gain between them. This encourages the model to acquire meaningful reasoning patterns rather than generating superficial or redundant explanations. Legal$\Delta$ follows a two-stage approach: (1) distilling latent reasoning capabilities from a powerful Large Reasoning Model (LRM), DeepSeek-R1, and (2) refining reasoning quality via differential comparisons, combined with a multidimensional reward mechanism that assesses both structural coherence and legal-domain specificity. Experimental results on multiple legal reasoning tasks demonstrate that Legal$\Delta$ outperforms strong baselines in both accuracy and interpretability. It consistently produces more robust and trustworthy legal judgments without relying on labeled preference data. All code and data will be released at https://github.com/NEUIR/LegalDelta.
- Abstract(参考訳): 法律人工知能(LegalAI)は、Large Language Models(LLMs)の支援により、司法決定の自動化において顕著な進歩を遂げている。
しかし、既存の法的LLMは信頼性と解釈可能な推論プロセスを生成するのに苦戦している。
彼らはしばしば、厳格な正当化を要求する複雑な法的シナリオにおいて、明確な多段階の推論なしに直接答えを導き、その有効性を制限することによって、迅速な思考行動にデフォルトとなる。
この課題に対処するため、我々は、チェーン・オブ・インフォメーションによる法的推論を強化するために設計された強化学習フレームワークであるLegal$\Delta$を提案する。
Legal$\Delta$は、トレーニング中にデュアルモードの入力設定と推論強化モードを使用し、それらの間の情報ゲインを最大化する。
これにより、表面的あるいは冗長な説明を生成するのではなく、意味のある推論パターンを取得することが促される。
法律$\Delta$は、(1)強力な大規模推論モデル(LRM)、DeepSeek-R1から潜在推論能力を蒸留し、(2)差分比較による推論品質を精製し、構造的コヒーレンスと法領域特異性の両方を評価する多次元報酬機構を組み合わせる。
複数の法的推論タスクの実験結果から、Legal$\Delta$は精度と解釈可能性の両方において強いベースラインを上回ります。
ラベル付き嗜好データに頼ることなく、一貫してより堅牢で信頼できる法的判断を下す。
すべてのコードとデータはhttps://github.com/NEUIR/LegalDelta.comで公開される。
関連論文リスト
- Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:50:21Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - An Explicit Syllogistic Legal Reasoning Framework for Large Language Models [5.501226256903341]
大規模言語モデル(LLM)は法的問題に答えることができるが、しばしば明示的なシロジック推論に苦慮する。
我々は,LLMが明示的なシロジックな法的推論を行えるように設計された新しいフレームワークであるSyLeRを紹介した。
SyLeRは、関係する法規や前例を合成するために、木構造的階層的検索機構を使用している。
論文 参考訳(メタデータ) (2025-04-05T03:34:51Z) - Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning [12.90492832643565]
法的な数学的推論は、大規模言語モデル(LLM)を高い法的文脈に適用するために不可欠である。
中国初の法的数学的推論ベンチマークであるLexNumを提示する。
また、効率的な法的推論訓練のための2段階強化学習フレームワークであるLexPamを提案する。
論文 参考訳(メタデータ) (2025-04-03T13:54:53Z) - Reasoning with Latent Thoughts: On the Power of Looped Transformers [52.84192961524481]
多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。
ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
論文 参考訳(メタデータ) (2025-02-24T18:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。