Fugu-MT 論文翻訳(概要): Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles

論文の概要: Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles

arxiv url: http://arxiv.org/abs/2504.12312v1
Date: Wed, 09 Apr 2025 09:54:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-26 04:04:55.477884
Title: Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles
Title（参考訳）: SocratesあるいはSmartypants: 論理プログラミングベースのテストオラクルで大規模言語モデルの能力をテストする
Authors: Zihao Xu, Junchen Ding, Yiling Lou, Kun Zhang, Dong Gong, Yuekang Li,
Abstract要約: SmartyPatは、難解で自然に表現され、体系的にラベル付けされたベンチマークであり、微妙な論理的な誤りを含む現実世界の高品質なRedditの投稿に由来する。手動データ収集とラベル付けの限界に対処するため,我々はSmartyPatを紹介した。
参考スコア（独自算出の注目度）: 23.573463118347778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved significant progress in language understanding and reasoning. Evaluating and analyzing their logical reasoning abilities has therefore become essential. However, existing datasets and benchmarks are often limited to overly simplistic, unnatural, or contextually constrained examples. In response to the growing demand, we introduce SmartyPat-Bench, a challenging, naturally expressed, and systematically labeled benchmark derived from real-world high-quality Reddit posts containing subtle logical fallacies. Unlike existing datasets and benchmarks, it provides more detailed annotations of logical fallacies and features more diverse data. To further scale up the study and address the limitations of manual data collection and labeling - such as fallacy-type imbalance and labor-intensive annotation - we introduce SmartyPat, an automated framework powered by logic programming-based oracles. SmartyPat utilizes Prolog rules to systematically generate logically fallacious statements, which are then refined into fluent natural-language sentences by LLMs, ensuring precise fallacy representation. Extensive evaluation demonstrates that SmartyPat produces fallacies comparable in subtlety and quality to human-generated content and significantly outperforms baseline methods. Finally, experiments reveal nuanced insights into LLM capabilities, highlighting that while excessive reasoning steps hinder fallacy detection accuracy, structured reasoning enhances fallacy categorization performance.
Abstract（参考訳）: 言語モデル(LLM)は言語理解と推論において大きな進歩を遂げた。そのため、それらの論理的推論能力の評価と分析が不可欠である。しかし、既存のデータセットとベンチマークは、過度に単純化され、不自然な、文脈的に制約された例に限られることが多い。 SmartyPat-Benchは、難解で、自然に表現され、体系的にラベル付けされたベンチマークであり、微妙な論理的な誤りを含む現実世界の高品質なReddit投稿に由来する。既存のデータセットやベンチマークとは異なり、論理的な誤りのより詳細なアノテーションを提供し、より多様なデータを特徴付ける。手動データ収集とラベル付けの制限(誤用型不均衡や労働集約アノテーションなど)をさらにスケールアップし、対処するために、ロジックプログラミングベースのオークルをベースとした自動化フレームワークであるSmartyPatを紹介します。 SmartyPatはPrologルールを使用して論理的に誤った文を体系的に生成する。広範囲な評価は、SmartyPatが人間生成コンテンツに匹敵する微妙さと品質で偽造し、ベースライン法を大幅に上回っていることを示している。実験の結果,過度な推論は誤検出の精度を阻害するが,構造化推論は誤分類性能を高めることが示唆された。

関連論文リスト

Beyond Correctness: Exposing LLM-generated Logical Flaws in Reasoning via Multi-step Automated Theorem Proving [11.24425572063955]
大規模言語モデル(LLM)は驚くべき推論能力を示しており、医療、法律、科学研究などの高度な領域で採用されている。しばしば、流動的な言語で隠された微妙な論理的誤りがあり、重要なアプリケーションにとって重大なリスクを生じさせる。 MATPは多段階自動定理証明によるLCM推論を体系的に検証するための評価フレームワークである。
論文参考訳（メタデータ） (2025-12-29T14:48:15Z)
Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-29T15:30:31Z)
DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.439517684779936]
本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文参考訳（メタデータ） (2025-09-19T04:40:46Z)
Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers [4.897782942277061]
本稿では,SSV(Semantic Self-Verification)を導入し,自然言語から解法の形式言語への推論問題を正確に定式化する手法を提案する。 SSVは一貫性に基づくアプローチを用いて、モデルによって生成され、解決者によって検証される具体的なインスタンス化を用いて、問題の強力な抽象的な形式化を生成する。このような*ほぼ確実な推論*は、多くの場合、手動検証の必要性を減らすための新しいアプローチとして提案され、より信頼性が高く自律的なAI推論システムに近づきます。
論文参考訳（メタデータ） (2025-01-28T14:04:49Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。 LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。 LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文参考訳（メタデータ） (2024-08-28T18:25:35Z)
A Logical Fallacy-Informed Framework for Argument Generation [34.35377699079075]
FIPOは、大規模言語モデルを論理的に健全な議論に導いてくれる、誤用インフォームドフレームワークである。議論データセットの結果から,提案手法は誤り率を最大17.5%削減することを示した。私たちのコードは alucamouchel.com/lucamouchel/Logical-Fallacies で利用可能です。
論文参考訳（メタデータ） (2024-08-07T08:19:44Z)
Autoformalizing Natural Language to First-Order Logic: A Case Study in Logical Fallacy Detection [44.31755414036022]
自然言語をFOLに自動変換するフレームワークであるNL2FOLについて,Large Language Models (LLMs) を用いて段階的に導入する。本手法は,暗黙の背景知識の統合など,翻訳プロセスにおける重要な課題に対処する。ニューロシンボリックなアプローチでは、推論プロセスに対する解釈可能な洞察も提供し、モデル微調整やラベル付きトレーニングデータを必要とせずに堅牢性を示す。
論文参考訳（メタデータ） (2024-04-18T00:20:48Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition [49.38757847011105]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文参考訳（メタデータ） (2023-11-16T04:17:47Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Case-Based Reasoning with Language Models for Classification of Logical Fallacies [3.511369967593153]
本稿では,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。本実験は,ケースベース推論が言語モデルの精度と一般化性を向上させることを示唆している。
論文参考訳（メタデータ） (2023-01-27T17:49:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。