論文の概要: Benchmarking Multi-Step Legal Reasoning and Analyzing Chain-of-Thought Effects in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07979v2
- Date: Wed, 19 Nov 2025 06:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.05779
- Title: Benchmarking Multi-Step Legal Reasoning and Analyzing Chain-of-Thought Effects in Large Language Models
- Title(参考訳): 大規模言語モデルにおける多段階法理推論のベンチマークと連鎖解析
- Authors: Wenhan Yu, Xinbo Lin, Lanxin Ni, Jinhua Cheng, Lei Sha,
- Abstract要約: 我々は,M SLRを紹介した。これは,実世界の司法判断に基礎を置いた,中国初の多段階の法的推論データセットである。
M SLR は IRAC フレームワーク (Issue, Rule, Application, Conclusion) を採用し、公式な法的文書からの構造化専門家の推論をモデル化している。
我々は,ステップレベルの詳細な推論アノテーションを効率よく生成する,スケーラブルなHuman-LLM協調アノテーションパイプラインを設計する。
さらなる実験では、モデルによって生成される自己開始型チェーン・オブ・ワットプロンプトが、推論のコヒーレンスと品質を自律的に改善し、人間によって設計されたプロンプトを上回ることが示されている。
- 参考スコア(独自算出の注目度): 8.769542756426786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong reasoning abilities across specialized domains, motivating research into their application to legal reasoning. However, existing legal benchmarks often conflate factual recall with genuine inference, fragment the reasoning process, and overlook the quality of reasoning. To address these limitations, we introduce MSLR, the first Chinese multi-step legal reasoning dataset grounded in real-world judicial decision making. MSLR adopts the IRAC framework (Issue, Rule, Application, Conclusion) to model structured expert reasoning from official legal documents. In addition, we design a scalable Human-LLM collaborative annotation pipeline that efficiently produces fine-grained step-level reasoning annotations and provides a reusable methodological framework for multi-step reasoning datasets. Evaluation of multiple LLMs on MSLR shows only moderate performance, highlighting the challenges of adapting to complex legal reasoning. Further experiments demonstrate that Self-Initiated Chain-of-Thought prompts generated by models autonomously improve reasoning coherence and quality, outperforming human-designed prompts. MSLR contributes to advancing LLM reasoning and Chain-of-Thought strategies and offers open resources for future research. The dataset and code are available at https://github.com/yuwenhan07/MSLR-Bench and https://law.sjtu.edu.cn/flszyjzx/index.html.
- Abstract(参考訳): 大規模言語モデル (LLM) は、専門分野にまたがる強力な推論能力を示し、法的推論への応用に関する研究を動機付けている。
しかし、既存の法的なベンチマークは、しばしば事実的リコールを真の推論で説明し、推論プロセスを断片化し、推論の質を見落としている。
これらの制限に対処するために,実世界の司法決定に基礎を置いた,中国初の多段階の法的推論データセットであるMSLRを導入する。
MSLRはIRACフレームワーク(Issue, Rule, Application, Conclusion)を採用し、公式な法的文書から構造化された専門家の推論をモデル化している。
さらに,ステップレベルの推論アノテーションを効率よく生成し,多段階推論データセットのための再利用可能な方法論的フレームワークを提供する,スケーラブルなHuman-LLM協調アノテーションパイプラインを設計する。
MSLR上での複数のLCMの評価は中程度の性能しか示さず、複雑な法的推論に適応する上での課題を浮き彫りにしている。
さらなる実験では、モデルによって生成される自己開始型チェーン・オブ・ワットプロンプトが、推論のコヒーレンスと品質を自律的に改善し、人間によって設計されたプロンプトを上回ることが示されている。
MSLRはLLM推論とChain-of-Thought戦略の発展に貢献し、将来の研究にオープンリソースを提供する。
データセットとコードはhttps://github.com/yuwenhan07/MSLR-Benchとhttps://law.sjtu.edu.cn/flszyjzx/index.htmlで公開されている。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - An Explicit Syllogistic Legal Reasoning Framework for Large Language Models [5.501226256903341]
大規模言語モデル(LLM)は法的問題に答えることができるが、しばしば明示的なシロジック推論に苦慮する。
我々は,LLMが明示的なシロジックな法的推論を行えるように設計された新しいフレームワークであるSyLeRを紹介した。
SyLeRは、関係する法規や前例を合成するために、木構造的階層的検索機構を使用している。
論文 参考訳(メタデータ) (2025-04-05T03:34:51Z) - Elevating Legal LLM Responses: Harnessing Trainable Logical Structures and Semantic Knowledge with Legal Reasoning [19.477062052536887]
意味と論理的コヒーレンスを橋渡しする教師ありフレームワークである論理・意味統合モデル(LSIM)を提案する。
LSIMは3つの要素から構成される: 強化学習は各質問に対して構造化されたファクトルールチェーンを予測し、訓練可能なDeep Structured Semantic Model(DSSM)は最も関連性の高い質問を検索し、回答内学習は最終回答を生成する。
LSIMが従来の手法に比べて精度と信頼性を著しく向上させるような,自動測定と人的評価デーモンレートによる実世界の法的データセットのQA検証実験を行った。
論文 参考訳(メタデータ) (2025-02-11T19:33:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。
私たちはこのフレームワークを使用して、現実世界のクレームを取り入れた最初のクレーム検証ベンチマークであるRECVを作成します。
我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。