論文の概要: LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.06533v1
- Date: Fri, 06 Feb 2026 09:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.318432
- Title: LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models
- Title(参考訳): LogicSkills: 大規模言語モデルにおける形式推論のための構造化ベンチマーク
- Authors: Brian Rabern, Philipp Mondorf, Barbara Plank,
- Abstract要約: 3つの基本論理スキルを一階述語論理モデルに分離する。
項目は2つの一階述語論理(英語なし)から引き出され、a と Carroll-style nonce の単語で示される。
先行するモデル全体では、パフォーマンスはかなり低いが、高い妥当性がある。
- 参考スコア(独自算出の注目度): 37.930280449304696
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have demonstrated notable performance across various logical reasoning benchmarks. However, it remains unclear which core logical skills they truly master. To address this, we introduce LogicSkills, a unified benchmark designed to isolate three fundamental skills in formal reasoning: (i) $\textit{formal symbolization}\unicode{x2014}$translating premises into first-order logic; (ii) $\textit{countermodel construction}\unicode{x2014}$formulating a finite structure in which all premises are true while the conclusion is false; and (iii) $\textit{validity assessment}\unicode{x2014}$deciding whether a conclusion follows from a given set of premises. Items are drawn from the two-variable fragment of first-order logic (without identity) and are presented in both natural English and a Carroll-style language with nonce words. All examples are verified for correctness and non-triviality using the SMT solver Z3. Across leading models, performance is high on validity but substantially lower on symbolization and countermodel construction, suggesting reliance on surface-level patterns rather than genuine symbolic or rule-based reasoning.
- Abstract(参考訳): 大規模言語モデルは、様々な論理的推論ベンチマークで顕著な性能を示している。
しかし、どの中核的な論理的スキルを真に習得しているのかは不明だ。
これを解決するために、フォーマルな推論において3つの基本的なスキルを分離するために設計された統合ベンチマークであるLogicSkillsを紹介した。
(i) $\textit{formal symbolization}\unicode{x2014}$ オンプレミスを一階述語論理に変換する
(ii) $\textit{countermodel construction}\unicode{x2014}$formulating a finite structure that all premises are true while the conclusion is false; and
(iii) $\textit{validity Assessment}\unicode{x2014}$deciding a conclusion from a set of premises。
項目は、一階述語論理の2変数の断片(同一性を持たない)から引き出され、自然な英語と、ナンスワードを持つキャロルスタイルの言語の両方で表現される。
SMTソルバZ3を用いて、すべての例を正確性および非自明性について検証する。
先行モデル全体では、性能は妥当性が高いが、シンボル化やカウンターモデルの構築は著しく低く、真のシンボルや規則に基づく推論よりも表面レベルのパターンに依存していることを示唆している。
関連論文リスト
- From Hypothesis to Premises: LLM-based Backward Logical Reasoning with Selective Symbolic Translation [8.104087344683604]
仮説駆動型後方論理推論(HBLR)を提案する。
中心となる考え方は、信頼を意識したシンボリック翻訳と仮説駆動の後方推論を統合することである。
HBLRは、精度と効率の両方において、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-12-03T01:52:31Z) - DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.439517684779936]
本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文 参考訳(メタデータ) (2025-09-19T04:40:46Z) - Transformers in the Service of Description Logic-based Contexts [2.8210912543324658]
私たちは記述論理言語$mathcalALCQ$を使って自然言語データセットDELTA$_D$を構築します。
教師付き細調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について検討した。
以上の結果から,DeBERTaをベースとしたモデルでは推論タスクをマスターすることができ,少数のサンプルが提供されてもGPTの性能は大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-15T13:23:24Z) - Three Dogmas, a Puzzle and its Solution [0.0]
本稿では,これらの仮定がアラビア語の基本原理と矛盾していることを示す。
論理学者の考えでは、自然言語の単語の中で「ToBe」の構成はアイデンティティーステートメントを表す。
不確定な記述は意味のある文を形成するために存在量化子に置き換える必要があり、記号は解釈に依存しない意味を持たない。
論文 参考訳(メタデータ) (2023-10-29T19:20:38Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - RobustLR: Evaluating Robustness to Logical Perturbation in Deductive
Reasoning [25.319674132967553]
トランスフォーマーは、英語の自然言語で書かれた規則や文を含む論理ルールベースで演能的推論を実行できることが示されている。
本稿では,ルールベースにおける最小論理編集に対して,これらのモデルのロバスト性を評価するためにロバストLRを提案する。
先行研究で訓練されたモデルは、ロバストLRの異なる摂動に対して一貫して動作しないことがわかった。
論文 参考訳(メタデータ) (2022-05-25T09:23:50Z) - Logic-Driven Context Extension and Data Augmentation for Logical
Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。
このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。
本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文 参考訳(メタデータ) (2021-05-08T10:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。