論文の概要: Thinking Longer, Not Always Smarter: Evaluating LLM Capabilities in Hierarchical Legal Reasoning
- arxiv url: http://arxiv.org/abs/2510.08710v1
- Date: Thu, 09 Oct 2025 18:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.403295
- Title: Thinking Longer, Not Always Smarter: Evaluating LLM Capabilities in Hierarchical Legal Reasoning
- Title(参考訳): より長く、常に賢く考える:階層的法的推論におけるLLM能力の評価
- Authors: Li Zhang, Matthias Grabmair, Morgan Gray, Kevin Ashley,
- Abstract要約: 本稿では,ケース間の重要な区別を3段階の推論タスクに分解する枠組みを提案する。
我々のフレームワークは、要因と呼ばれる事実的述語を使用してケースをモデル化し、それらを法的知識階層に整理し、区別を識別するための検証可能なルールを定義します。
我々は、モデルが正しい応答よりも間違った応答について、常に多くの計算資源を消費していることを発見し、「より長く考えることは、必ずしも「より賢く考える」という意味ではないことを示唆している。
- 参考スコア(独自算出の注目度): 11.255428720705204
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Case-based reasoning is a cornerstone of U.S. legal practice, requiring professionals to argue about a current case by drawing analogies to and distinguishing from past precedents. While Large Language Models (LLMs) have shown remarkable capabilities, their proficiency in this complex, nuanced form of reasoning needs further investigation. We propose a formal framework that decomposes the process of identifying significant distinctions between cases into three-stage reasoning tasks. Our framework models cases using factual predicates called factors, organizes them into a legal knowledge hierarchy, and defines verifiable rules for identifying distinctions, analyzing their argumentative support, and evaluating their significance. Through comprehensive evaluation of modern reasoning LLMs, we reveal a paradox: while models achieve high accuracy on surface-level reasoning (Task 1), performance degrades on hierarchical reasoning (Task 2: 64.82%-92.09%) and collapses on integrated analysis (Task 3: 11.46%-33.99%). Most strikingly, we find that models consistently expend more computational resources on incorrect responses than correct ones, suggesting that "thinking longer" does not always mean "thinking smarter." Our work provides a methodology for fine-grained analysis of LLM reasoning capabilities in complex domains and reveals fundamental limitations that must be addressed for robust and trustworthy legal AI.
- Abstract(参考訳): 判例に基づく推論は米国の法律実務の基盤であり、専門家は過去の前例と類似性を引き合いに出し、区別することによって、現在の事件について議論することを要求する。
LLM(Large Language Models)は目覚ましい能力を示しているが、この複雑で曖昧な推論にはさらなる調査が必要である。
本稿では,ケース間の重要な区別を3段階の推論タスクに分解する形式的枠組みを提案する。
本フレームワークは,要因と呼ばれる実例を用いた事例をモデル化し,それらを法的知識階層に整理し,識別し,議論的支援を分析し,その意義を評価するための検証可能なルールを定義する。
モデルが表層推論(Task 1)において高い精度を達成する一方で、階層的推論(Task 2: 64.82%-92.09%)では性能が低下し、統合解析(Task 3: 11.46%-33.99%)では崩壊する(Task 3: 11.46%-33.99%)。
最も注目すべきは、モデルが正しい応答よりも不正確な応答に対して常に多くの計算資源を消費していることであり、「より長く考える」とは必ずしも「より賢く考える」という意味ではないことを示唆している。
我々の研究は、複雑なドメインにおけるLLM推論能力を詳細に分析するための方法論を提供し、堅牢で信頼性の高い法的なAIに対処しなければならない基本的な制限を明らかにします。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - On Verifiable Legal Reasoning: A Multi-Agent Framework with Formalized Knowledge Representations [0.0]
本稿では,法的な推論を異なる知識獲得と応用段階に分解するモジュール型マルチエージェントフレームワークを提案する。
第一段階では、特殊エージェントは法的概念を抽出し、規則を形式化し、法令の検証可能な中間表現を作成する。
第2段階では、クエリを分析してケース事実をスキーマにマッピングし、論理的に関連する結論を導出するためのシンボリック推論を実行し、最終的な回答を生成するという3つのステップを通じて、この知識を特定のケースに適用する。
論文 参考訳(メタデータ) (2025-08-31T06:03:00Z) - Cognitive Decision Routing in Large Language Models: When to Think Fast, When to Think Slow [0.0]
大規模言語モデル(LLM)は、迅速で直感的な応答にいつ依存するか決定する上で、より遅く、より意図的な推論を行うという根本的な課題に直面します。
ダニエル・カーネマン(Daniel Kahneman)の二重プロセス理論と人間の認知バイアスに関する洞察に触発され、我々は新しい認知決定ルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-17T01:07:58Z) - Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [40.143148197878354]
我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。
微調整形推論能力の異なる監督形式について検討する。
自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - An Explicit Syllogistic Legal Reasoning Framework for Large Language Models [5.501226256903341]
大規模言語モデル(LLM)は法的問題に答えることができるが、しばしば明示的なシロジック推論に苦慮する。
我々は,LLMが明示的なシロジックな法的推論を行えるように設計された新しいフレームワークであるSyLeRを紹介した。
SyLeRは、関係する法規や前例を合成するために、木構造的階層的検索機構を使用している。
論文 参考訳(メタデータ) (2025-04-05T03:34:51Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。