論文の概要: Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression
- arxiv url: http://arxiv.org/abs/2512.06393v2
- Date: Fri, 12 Dec 2025 09:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:28.987687
- Title: Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression
- Title(参考訳): ルール除去, パラフレージング, 圧縮によるLLM一般化のマルチステップ論理的推論
- Authors: Qiming Bao, Xiaoxuan Fu,
- Abstract要約: 大規模言語モデル(LLM)は多くの自然言語処理において高い性能を達成するが、論理規則系の構造的摂動下での一般化は依然として不十分である。
本研究では,4つの応力試験による推理信頼性の検証を行う制御評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.3492355863487275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance on many natural language tasks, yet their generalisation under structured perturbations of logical rule systems remains insufficiently characterised. We present a controlled evaluation framework that probes reasoning reliability through four stress tests: (1) rule deletion, removing redundant versus essential rules from a multi-step inference chain; (2) contradictory evidence injection; (3) logic-preserving rewrites based on equivalence laws (contraposition, double negation, implication-to-disjunction, De Morgan, identity, and commutativity); and (4) multi-law equivalence stacking that composes 2--5 transformations. Across three representative model families -- BERT, Qwen2, and LLaMA-like models -- all models attain Acc$=1.0000$ on the base split and show no degradation under redundant rule deletion. In contrast, essential rule deletion yields a pronounced decrease to near-chance performance, and injecting explicit contradictions reduces accuracy to 0.0000. Under logic-preserving rewrites, accuracy is largely preserved for single-law transformations with only small degradations in a few cases, whereas multi-law stacking exposes model-dependent sensitivity: BERT matches the base condition, TinyLlama shows only marginal degradation, and Qwen2 exhibits a substantial drop. Overall, the results indicate that contemporary LLMs are generally stable under semantic-preserving reformulations, yet remain brittle to missing or inconsistent evidence and may degrade under composed logical transformations depending on the model family. The proposed framework provides a concise diagnostic tool for isolating these failure modes and for evaluating logical generalisation beyond surface-form variation.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理において高い性能を達成するが、論理規則系の構造的摂動下での一般化は依然として不十分である。
本研究の目的は,(1) 規則の削除, 複数段階の推論連鎖からの冗長な規則と必須な規則の除去,(2) 矛盾するエビデンスインジェクション,(3) 等価法則に基づく論理的書き直し(反則, 二重否定, 含意-解離, デモーガン, アイデンティティ, 可換性) (4) 2--5 変換を構成する多義的同値積み重ね, BERT, Qwen2 および LLaMA 様モデルの3つの代表的なモデル-- BERT と Qwen2 と LLaMA 様のモデル--- が, ベース分割で Acc$=1.0000$ のモデルであり, 余剰なルール削除で劣化しないことを示す。
対照的に、本質的な規則の削除は明らかに近チャンス性能に低下し、明示的な矛盾を注入すると精度は0.0000に低下する。
論理保存リライトの下では、精度は少数のケースで小さな劣化しか持たない単一法則変換に対してほとんど維持されるが、マルチ法則の積み重ねはモデル依存の感度を露呈する:BERTは基本条件と一致し、TinyLlamaは限界劣化のみを示し、Qwen2は大幅に低下する。
総じて, 現代LLMは, 意味保存的改革の下では安定でありながら, 欠落や矛盾した証拠に弱いままであり, モデルファミリーによって構成された論理変換の下では劣化する可能性が示唆された。
提案するフレームワークは、これらの障害モードを分離し、表面形状の変化を超えて論理的一般化を評価するための簡潔な診断ツールを提供する。
関連論文リスト
- Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation [40.210132040677]
本稿では,23の現代大言語モデル(LLM)の絶対的性能と相対的ランク付けが,制御的,真に等価な語彙的および構文的摂動に与える影響について検討する。
その結果、語彙的摂動は、ほぼすべてのモデルやタスクに対して、実質的、統計的に有意な性能劣化を誘導する一方、構文的摂動はより異質な効果を持ち、時には結果を改善することが示されている。
論文 参考訳(メタデータ) (2026-02-19T12:24:42Z) - Evaluating Robustness of Reasoning Models on Parameterized Logical Problems [20.78623024814435]
LogicはLSMベースの推論を評価するための制御されたテストベッドを提供する。
SATスタイルの標準ベンチマークでは、表面の難易度(長さ、単語、節順)を実際に満足度を決定する構造現象と区別することが多い。
構造化2-CNF式をパラメータ化して構築した2-SATの診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-13T06:54:25Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - Improving Symbolic Translation of Language Models for Logical Reasoning [14.474630644806723]
小さな言語モデル(LM)は、しばしば自然言語(NL)を一階述語論理(FOL)に変換するのに苦労する。
既存のアプローチは通常、これらのエラーを修正するために自己イテレーションに依存するが、そのような方法は基礎となるモデルの能力に大きく依存する。
本稿では,予測を述語生成とFOL翻訳の2段階に分割し,モデル動作の制御性を高めるインクリメンタル推論を提案する。
論文 参考訳(メタデータ) (2026-01-14T12:47:14Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - LOGicalThought: Logic-Based Ontological Grounding of LLMs for High-Assurance Reasoning [33.30049437667383]
高精度な推論には、正確で検証可能で証拠に根ざした結論が必要である。
本稿では, LOGicalThought と呼ばれる新しいニューロシンボリック・グラウンドアーキテクチャを提案する。
高度な論理言語と論理理論をLLMと組み合わせて、二重の記号グラフコンテキストと論理ベースのコンテキストを構築する。
論文 参考訳(メタデータ) (2025-10-02T00:06:23Z) - From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Faithful and Robust LLM-Driven Theorem Proving for NLI Explanations [13.485604499678262]
自然言語推論(NLI)における自然言語説明の役割
近年の研究では、大言語モデル(LLM)と定理証明器(TP)の相互作用が、NLI説明の有効性の検証と改善に役立つことが示されている。
本稿では,自己形式化時の意味喪失を軽減するための戦略について検討する。
論文 参考訳(メタデータ) (2025-05-30T06:38:39Z) - Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective [59.7140089198992]
抽象的推論を本質的なパターンを抽出する能力として定義する数学的枠組みを開発する。
基本的な推論精度を計測する(scoreGamma)と、特定のシンボルに依存するモデルの定量化(scoreDelta)である。
論文 参考訳(メタデータ) (2025-05-28T09:02:45Z) - Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。