論文の概要: ChaosBench-Logic: A Benchmark for Logical and Symbolic Reasoning on Chaotic Dynamical Systems
- arxiv url: http://arxiv.org/abs/2601.01982v1
- Date: Mon, 05 Jan 2026 10:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.968721
- Title: ChaosBench-Logic: A Benchmark for Logical and Symbolic Reasoning on Chaotic Dynamical Systems
- Title(参考訳): ChaosBench-Logic:カオス力学系における論理的および記号的推論のベンチマーク
- Authors: Noel Thomas,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に優れるが、正確な論理的および記号的推論を必要とする領域では脆弱である。
カオス力学系は、カオスは決定論的であるが、しばしばランダム性や複雑性と誤解されるため、特に要求の高いテストを提供する。
本稿では,30種類の力学系におけるLSM推論を評価するベンチマークであるChaosBench-Logicを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at natural language tasks but remain brittle in domains requiring precise logical and symbolic reasoning. Chaotic dynamical systems provide an especially demanding test because chaos is deterministic yet often misinterpreted as randomness or complexity. We introduce ChaosBench-Logic, a benchmark that evaluates LLM reasoning across 30 diverse dynamical systems using a unified first-order logic (FOL) ontology. Each system is annotated with truth assignments for 11 semantic predicates, and 621 questions are generated across seven reasoning categories, including multi-hop implications, cross-system analogies, counterfactual reasoning, bias probes, and multi-turn dialogues. We define metrics for logical accuracy, implication consistency, dialogue coherence, and contradiction, and we release an open-source evaluation pipeline. Initial experiments show that frontier LLMs such as GPT-4, Claude 3.5 Sonnet, Gemini 2.5 Flash, and the open-source LLaMA-3 70B achieve 91-94% per-item accuracy, yet still score 0% on compositional items and exhibit fragile global coherence. Dialogue-level accuracy ranges from 53.1% (GPT-4 CoT) to 75.5% (LLaMA-3 zero-shot). ChaosBench-Logic provides a rigorous testbed for diagnosing such failures and a foundation for developing neuro-symbolic approaches that improve scientific reasoning in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に優れるが、正確な論理的および記号的推論を必要とする領域では脆弱である。
カオス力学系は、カオスは決定論的であるが、しばしばランダム性や複雑性と誤解されるため、特に要求の高いテストを提供する。
統一一階述語論理(FOL)オントロジーを用いて、30の多様な力学系におけるLCM推論を評価するベンチマークであるChaosBench-Logicを紹介する。
それぞれのシステムは、11のセマンティック述語に対する真理の代入で注釈付けされ、621の質問は、マルチホップ含意、システム間の類似、反実的推論、バイアスプローブ、マルチターン対話を含む7つの推論カテゴリで生成される。
論理的精度、含意整合性、対話コヒーレンス、矛盾のメトリクスを定義し、オープンソースの評価パイプラインをリリースする。
初期の実験では、GPT-4、Claude 3.5 Sonnet、Gemini 2.5 Flash、オープンソースのLLaMA-3 70BといったフロンティアのLLMが1石当たり91-94%の精度を達成しているが、それでも構成項目の0%は得点し、壊れやすいグローバルコヒーレンスを示した。
対話レベルの精度は53.1%(GPT-4 CoT)から75.5%(LLaMA-3ゼロショット)まで変化している。
ChaosBench-Logicは、そのような障害を診断するための厳格なテストベッドを提供し、LSMの科学的推論を改善する神経-記号的アプローチを開発する基盤を提供する。
関連論文リスト
- MuSLR: Multimodal Symbolic Logical Reasoning [133.85551954182105]
マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。
形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。
我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
論文 参考訳(メタデータ) (2025-09-30T06:42:20Z) - From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - LogicTree: Structured Proof Exploration for Coherent and Rigorous Logical Reasoning with Large Language Models [9.339988760379915]
LogicTreeは、アルゴリズム誘導探索を用いて構造化された証明探索を自動化する推論時モジュラーフレームワークである。
前提優先度付けのための2自由導出を導入し、戦略的証明探索を可能にする。
LogicTreeでは、GPT-4oは平均7.6%でo3-miniを上回っている。
論文 参考訳(メタデータ) (2025-04-18T22:10:02Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。