Fugu-MT 論文翻訳(概要): Evaluating the Logical Reasoning Abilities of Large Reasoning Models

論文の概要: Evaluating the Logical Reasoning Abilities of Large Reasoning Models

arxiv url: http://arxiv.org/abs/2505.11854v1
Date: Sat, 17 May 2025 05:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.896112
Title: Evaluating the Logical Reasoning Abilities of Large Reasoning Models
Title（参考訳）: 大規模推論モデルの論理的推論能力の評価
Authors: Hanmeng Liu, Yiran Ding, Zhizhang Fu, Chaoli Zhang, Xiaozhang Liu, Yue Zhang,
Abstract要約: 大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。 LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
参考スコア（独自算出の注目度）: 15.009205651973666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large reasoning models, often post-trained on long chain-of-thought (long CoT) data with reinforcement learning, achieve state-of-the-art performance on mathematical, coding, and domain-specific reasoning benchmarks. However, their logical reasoning capabilities - fundamental to human cognition and independent of domain knowledge - remain understudied. To address this gap, we introduce LogiEval, a holistic benchmark for evaluating logical reasoning in large reasoning models. LogiEval spans diverse reasoning types (deductive, inductive, analogical, and abductive) and task formats (e.g., logical sequence, argument analysis), sourced from high-quality human examinations (e.g., LSAT, GMAT). Our experiments demonstrate that modern reasoning models excel at 4-choice argument analysis problems and analogical reasoning, surpassing human performance, yet exhibit uneven capabilities across reasoning types and formats, highlighting limitations in their generalization. Our analysis reveals that human performance does not mirror model failure distributions. To foster further research, we curate LogiEval-Hard, a challenging subset identified through a novel screening paradigm where small-model failures (Qwen3-30B-A3B) reliably predict difficulties for larger models. Modern models show striking, consistent failures on LogiEval-Hard. This demonstrates that fundamental reasoning bottlenecks persist across model scales, and establishes LogiEval-Hard as both a diagnostic tool and a rigorous testbed for advancing logical reasoning in LLMs.
Abstract（参考訳）: 大規模な推論モデルは、しばしば強化学習を伴うロングチェーン・オブ・ソート(ロングCoT)データに基づいて訓練後、数学的、コーディング、ドメイン固有の推論ベンチマークで最先端のパフォーマンスを達成する。しかしながら、その論理的推論能力(人間の認識の基本とドメイン知識の独立)はいまだ検討されていない。このギャップに対処するために,大規模な推論モデルにおいて論理的推論を評価するための総合的なベンチマークであるLogiEvalを紹介する。 LogiEvalは、多種多様な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(例えば、論理的シーケンス、引数解析)にまたがる。実験により,現代の推論モデルは,4選択の議論解析問題や類似推論に優れ,人間の性能を上回りながら,推論型や形式にまたがる不均一な能力を示し,その一般化の限界を浮き彫りにすることを示した。解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。さらなる研究を促進するために,我々は,小型モデル故障(Qwen3-30B-A3B)が大規模モデルの困難を確実に予測する新しいスクリーニングパラダイムを通じて同定された,挑戦的なサブセットであるLogiEval-Hardをキュレートする。現代のモデルは、LogiEval-Hardで顕著で一貫した失敗を示しています。このことは、モデルスケール全体で根本的な推論ボトルネックが持続していることを示し、LLMにおける論理的推論を進めるための診断ツールと厳密なテストベッドとしてLogiEval-Hardを確立している。

関連論文リスト

NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文参考訳（メタデータ） (2025-07-02T17:30:24Z)
Logical Reasoning in Large Language Models: A Survey [17.06712393613964]
大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
論文参考訳（メタデータ） (2025-02-13T09:19:14Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-17T08:59:04Z)
Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文参考訳（メタデータ） (2024-02-20T12:58:14Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文参考訳（メタデータ） (2021-04-14T02:53:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。