論文の概要: Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles
- arxiv url: http://arxiv.org/abs/2504.12312v1
- Date: Wed, 09 Apr 2025 09:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:05:33.344057
- Title: Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles
- Title(参考訳): SocratesあるいはSmartypants: 論理プログラミングベースのテストオラクルで大規模言語モデルの能力をテストする
- Authors: Zihao Xu, Junchen Ding, Yiling Lou, Kun Zhang, Dong Gong, Yuekang Li,
- Abstract要約: SmartyPatは、難解で自然に表現され、体系的にラベル付けされたベンチマークであり、微妙な論理的な誤りを含む現実世界の高品質なRedditの投稿に由来する。
手動データ収集とラベル付けの限界に対処するため,我々はSmartyPatを紹介した。
- 参考スコア(独自算出の注目度): 23.573463118347778
- License:
- Abstract: Large Language Models (LLMs) have achieved significant progress in language understanding and reasoning. Evaluating and analyzing their logical reasoning abilities has therefore become essential. However, existing datasets and benchmarks are often limited to overly simplistic, unnatural, or contextually constrained examples. In response to the growing demand, we introduce SmartyPat-Bench, a challenging, naturally expressed, and systematically labeled benchmark derived from real-world high-quality Reddit posts containing subtle logical fallacies. Unlike existing datasets and benchmarks, it provides more detailed annotations of logical fallacies and features more diverse data. To further scale up the study and address the limitations of manual data collection and labeling - such as fallacy-type imbalance and labor-intensive annotation - we introduce SmartyPat, an automated framework powered by logic programming-based oracles. SmartyPat utilizes Prolog rules to systematically generate logically fallacious statements, which are then refined into fluent natural-language sentences by LLMs, ensuring precise fallacy representation. Extensive evaluation demonstrates that SmartyPat produces fallacies comparable in subtlety and quality to human-generated content and significantly outperforms baseline methods. Finally, experiments reveal nuanced insights into LLM capabilities, highlighting that while excessive reasoning steps hinder fallacy detection accuracy, structured reasoning enhances fallacy categorization performance.
- Abstract(参考訳): 言語モデル(LLM)は言語理解と推論において大きな進歩を遂げた。
そのため、それらの論理的推論能力の評価と分析が不可欠である。
しかし、既存のデータセットとベンチマークは、過度に単純化され、不自然な、文脈的に制約された例に限られることが多い。
SmartyPat-Benchは、難解で、自然に表現され、体系的にラベル付けされたベンチマークであり、微妙な論理的な誤りを含む現実世界の高品質なReddit投稿に由来する。
既存のデータセットやベンチマークとは異なり、論理的な誤りのより詳細なアノテーションを提供し、より多様なデータを特徴付ける。
手動データ収集とラベル付けの制限(誤用型不均衡や労働集約アノテーションなど)をさらにスケールアップし、対処するために、ロジックプログラミングベースのオークルをベースとした自動化フレームワークであるSmartyPatを紹介します。
SmartyPatはPrologルールを使用して論理的に誤った文を体系的に生成する。
広範囲な評価は、SmartyPatが人間生成コンテンツに匹敵する微妙さと品質で偽造し、ベースライン法を大幅に上回っていることを示している。
実験の結果,過度な推論は誤検出の精度を阻害するが,構造化推論は誤分類性能を高めることが示唆された。
関連論文リスト
- JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - A Logical Fallacy-Informed Framework for Argument Generation [34.35377699079075]
FIPOは、大規模言語モデルを論理的に健全な議論に導いてくれる、誤用インフォームドフレームワークである。
議論データセットの結果から,提案手法は誤り率を最大17.5%削減することを示した。
私たちのコードは alucamouchel.com/lucamouchel/Logical-Fallacies で利用可能です。
論文 参考訳(メタデータ) (2024-08-07T08:19:44Z) - Autoformalizing Natural Language to First-Order Logic: A Case Study in Logical Fallacy Detection [44.31755414036022]
自然言語をFOLに自動変換するフレームワークであるNL2FOLについて,Large Language Models (LLMs) を用いて段階的に導入する。
本手法は,暗黙の背景知識の統合など,翻訳プロセスにおける重要な課題に対処する。
ニューロシンボリックなアプローチでは、推論プロセスに対する解釈可能な洞察も提供し、モデル微調整やラベル付きトレーニングデータを必要とせずに堅牢性を示す。
論文 参考訳(メタデータ) (2024-04-18T00:20:48Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition [49.38757847011105]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Case-Based Reasoning with Language Models for Classification of Logical
Fallacies [3.511369967593153]
本稿では,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。
本実験は,ケースベース推論が言語モデルの精度と一般化性を向上させることを示唆している。
論文 参考訳(メタデータ) (2023-01-27T17:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。