論文の概要: Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression
- arxiv url: http://arxiv.org/abs/2512.06393v1
- Date: Sat, 06 Dec 2025 10:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.339761
- Title: Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression
- Title(参考訳): ルール除去, パラフレージング, 圧縮によるLLM一般化のマルチステップ論理的推論
- Authors: Qiming Bao, Xiaoxuan Fu,
- Abstract要約: 大規模言語モデルは、多くの自然言語タスクにまたがって優れているが、論理的文脈における構造的摂動への一般化は、いまだに理解されていない。
4つの目標応力試験による推論信頼性を調査する制御評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.3492355863487275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel across many natural language tasks, yet their generalisation to structural perturbations in logical contexts remains poorly understood. We introduce a controlled evaluation framework that probes reasoning reliability through four targeted stress tests: (1) rule deletion, removing either redundant or essential rules from a multi-step inference chain; (2) contradictory evidence injection; (3) logic-preserving rewrites generated through several families of equivalence laws (contrapositive, double negation, implication, De Morgan, identity, and commutativity); and (4) multi-law equivalence stacking that introduces 2-5 simultaneous logical transformations. Across three representative model families: BERT, Qwen2, and LLaMA-like models. Our experiments reveal a strikingly consistent pattern: all models achieve perfect accuracy on the base tasks and remain fully generalise to redundant rule deletion and all equivalence-based rewrites (single or multi-law), but fail sharply under essential rule deletion (dropping to 25% accuracy) and collapse completely in the presence of explicit contradictions (0% accuracy). These results demonstrate that LLMs possess stable invariance to semantic-preserving logical transformations, yet remain fundamentally brittle to missing or conflicting evidence. Our framework provides a clean diagnostic tool for isolating such reasoning failure modes and highlights persistent gaps in the logical generalisation abilities of current LLMs.
- Abstract(参考訳): 大規模言語モデル (LLMs) は多くの自然言語処理を網羅しているが、論理的文脈における構造摂動への一般化はいまだに理解されていない。
本研究は,(1)多段階推論連鎖から冗長あるいは必須のルールを除去するルール削除,(2)矛盾するエビデンス注入,(3)同値法(矛盾性,二重否定,含意,De Morgan,同一性,可換性)によって生成される論理的書き直し,(4)論理的論理的変換を2~5回導入するマルチロー同値積み重ね,という4つの目的のストレステストを通じて,推論信頼性を調査する制御された評価枠組みを導入する。
3つの代表的なモデルファミリー:BERT、Qwen2、LLaMAのようなモデル。
全てのモデルが基本課題に対して完全な精度を達成し、冗長なルール削除とすべての等価性ベースの書き直し(シングルまたはマルチロー)に完全に一般化し続けるが、本質的なルール削除(25%の精度まで低下)の下で急激に失敗し、明示的な矛盾(0%の精度)で完全に崩壊する。
これらの結果は、LLMは意味保存論理変換に対する安定な不変性を持っているが、欠落または矛盾する証拠に対して根本的な脆弱さを保っていることを証明している。
我々のフレームワークは、そのような推論失敗モードを分離するためのクリーンな診断ツールを提供し、現在のLLMの論理的一般化能力における永続的なギャップを強調します。
関連論文リスト
- LOGicalThought: Logic-Based Ontological Grounding of LLMs for High-Assurance Reasoning [33.30049437667383]
高精度な推論には、正確で検証可能で証拠に根ざした結論が必要である。
本稿では, LOGicalThought と呼ばれる新しいニューロシンボリック・グラウンドアーキテクチャを提案する。
高度な論理言語と論理理論をLLMと組み合わせて、二重の記号グラフコンテキストと論理ベースのコンテキストを構築する。
論文 参考訳(メタデータ) (2025-10-02T00:06:23Z) - From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - Faithful and Robust LLM-Driven Theorem Proving for NLI Explanations [13.485604499678262]
自然言語推論(NLI)における自然言語説明の役割
近年の研究では、大言語モデル(LLM)と定理証明器(TP)の相互作用が、NLI説明の有効性の検証と改善に役立つことが示されている。
本稿では,自己形式化時の意味喪失を軽減するための戦略について検討する。
論文 参考訳(メタデータ) (2025-05-30T06:38:39Z) - Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。