Fugu-MT 論文翻訳(概要): Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain

論文の概要: Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain

arxiv url: http://arxiv.org/abs/2508.12281v2
Date: Tue, 19 Aug 2025 02:05:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-20 11:25:17.712768
Title: Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain
Title（参考訳）: 法律$Δ$:Chain-of-Thought Guided Information Gainを用いた強化学習によるLLMにおける法的推論の促進
Authors: Xin Dai, Buqiang Xu, Zhenghao Liu, Yukun Yan, Huiyuan Xie, Xiaoyuan Yi, Shuo Wang, Ge Yu,
Abstract要約: 我々は、チェーン・オブ・インフォメーションによる法的推論を強化するために、Legal$Delta$を提案する。 Legal$Delta$はデュアルモードの入力設定と直接応答と推論拡張モードを使用する。ラベル付き嗜好データに頼ることなく、一貫してより堅牢で信頼できる法的判断を下す。
参考スコア（独自算出の注目度）: 21.20249684727035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Legal Artificial Intelligence (LegalAI) has achieved notable advances in automating judicial decision-making with the support of Large Language Models (LLMs). However, existing legal LLMs still struggle to generate reliable and interpretable reasoning processes. They often default to fast-thinking behavior by producing direct answers without explicit multi-step reasoning, limiting their effectiveness in complex legal scenarios that demand rigorous justification. To address this challenge, we propose Legal$\Delta$, a reinforcement learning framework designed to enhance legal reasoning through chain-of-thought guided information gain. During training, Legal$\Delta$ employs a dual-mode input setup-comprising direct answer and reasoning-augmented modes-and maximizes the information gain between them. This encourages the model to acquire meaningful reasoning patterns rather than generating superficial or redundant explanations. Legal$\Delta$ follows a two-stage approach: (1) distilling latent reasoning capabilities from a powerful Large Reasoning Model (LRM), DeepSeek-R1, and (2) refining reasoning quality via differential comparisons, combined with a multidimensional reward mechanism that assesses both structural coherence and legal-domain specificity. Experimental results on multiple legal reasoning tasks demonstrate that Legal$\Delta$ outperforms strong baselines in both accuracy and interpretability. It consistently produces more robust and trustworthy legal judgments without relying on labeled preference data. All code and data will be released at https://github.com/NEUIR/LegalDelta.
Abstract（参考訳）: 法律人工知能(LegalAI)は、Large Language Models(LLMs)の支援により、司法決定の自動化において顕著な進歩を遂げている。しかし、既存の法的LLMは信頼性と解釈可能な推論プロセスを生成するのに苦戦している。彼らはしばしば、厳格な正当化を要求する複雑な法的シナリオにおいて、明確な多段階の推論なしに直接答えを導き、その有効性を制限することによって、迅速な思考行動にデフォルトとなる。この課題に対処するため、我々は、チェーン・オブ・インフォメーションによる法的推論を強化するために設計された強化学習フレームワークであるLegal$\Delta$を提案する。 Legal$\Delta$は、トレーニング中にデュアルモードの入力設定と推論強化モードを使用し、それらの間の情報ゲインを最大化する。これにより、表面的あるいは冗長な説明を生成するのではなく、意味のある推論パターンを取得することが促される。法律$\Delta$は、(1)強力な大規模推論モデル(LRM)、DeepSeek-R1から潜在推論能力を蒸留し、(2)差分比較による推論品質を精製し、構造的コヒーレンスと法領域特異性の両方を評価する多次元報酬機構を組み合わせる。複数の法的推論タスクの実験結果から、Legal$\Delta$は精度と解釈可能性の両方において強いベースラインを上回ります。ラベル付き嗜好データに頼ることなく、一貫してより堅牢で信頼できる法的判断を下す。すべてのコードとデータはhttps://github.com/NEUIR/LegalDelta.comで公開される。

関連論文リスト

Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文参考訳（メタデータ） (2026-02-06T08:03:11Z)
Multi-Source Retrieval and Reasoning for Legal Sentencing Prediction [50.6851250608938]
厳密な客観的知識と柔軟な主観的推論を必要とするため、LSPは依然として困難である。我々は,LLMにおけるマルチソース検索と推論を統合して強化学習を行うフレームワークであるMSR2$を提案する。 2つの実世界のデータセットの実験によると、$MSR2$はLSPの精度と解釈可能性の両方を改善している。
論文参考訳（メタデータ） (2026-02-04T15:55:55Z)
LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。 LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。 LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文参考訳（メタデータ） (2026-01-31T10:18:32Z)
Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。 ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。複数のベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2026-01-08T06:57:03Z)
When Reasoning Meets Its Laws [45.03949352588766]
本稿では, LRMにおける固有推論パターンを特徴付ける統一フレームワークLoReについて述べる。まず、推論計算が問題複雑度とともに線形にスケールすべきという仮説を用いて計算法則を提案する。問題複雑性は実際は定量化が難しいため、これらの仮説を法則の2つの性質、単調性と構成性によって検証する。
論文参考訳（メタデータ） (2025-12-19T18:59:11Z)
Benchmarking Multi-Step Legal Reasoning and Analyzing Chain-of-Thought Effects in Large Language Models [8.769542756426786]
我々は,M SLRを紹介した。これは,実世界の司法判断に基礎を置いた,中国初の多段階の法的推論データセットである。 M SLR は IRAC フレームワーク (Issue, Rule, Application, Conclusion) を採用し、公式な法的文書からの構造化専門家の推論をモデル化している。我々は,ステップレベルの詳細な推論アノテーションを効率よく生成する,スケーラブルなHuman-LLM協調アノテーションパイプラインを設計する。さらなる実験では、モデルによって生成される自己開始型チェーン・オブ・ワットプロンプトが、推論のコヒーレンスと品質を自律的に改善し、人間によって設計されたプロンプトを上回ることが示されている。
論文参考訳（メタデータ） (2025-11-11T08:45:29Z)
GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。 GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文参考訳（メタデータ） (2025-08-22T13:38:12Z)
Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文参考訳（メタデータ） (2025-06-05T14:16:44Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-27T14:50:21Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳（メタデータ） (2025-05-15T17:58:33Z)
An Explicit Syllogistic Legal Reasoning Framework for Large Language Models [5.501226256903341]
大規模言語モデル(LLM)は法的問題に答えることができるが、しばしば明示的なシロジック推論に苦慮する。我々は,LLMが明示的なシロジックな法的推論を行えるように設計された新しいフレームワークであるSyLeRを紹介した。 SyLeRは、関係する法規や前例を合成するために、木構造的階層的検索機構を使用している。
論文参考訳（メタデータ） (2025-04-05T03:34:51Z)
Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning [12.90492832643565]
法的な数学的推論は、大規模言語モデル(LLM)を高い法的文脈に適用するために不可欠である。中国初の法的数学的推論ベンチマークであるLexNumを提示する。また、効率的な法的推論訓練のための2段階強化学習フレームワークであるLexPamを提案する。
論文参考訳（メタデータ） (2025-04-03T13:54:53Z)
Reasoning with Latent Thoughts: On the Power of Looped Transformers [52.84192961524481]
多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
論文参考訳（メタデータ） (2025-02-24T18:49:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。