論文の概要: Don't Judge a Book by its Cover: Testing LLMs' Robustness Under Logical Obfuscation
- arxiv url: http://arxiv.org/abs/2602.01132v1
- Date: Sun, 01 Feb 2026 10:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.615326
- Title: Don't Judge a Book by its Cover: Testing LLMs' Robustness Under Logical Obfuscation
- Title(参考訳): LLMのロバストさを論理的難読化で検証する
- Authors: Abhilekh Borah, Shubhra Ghosh, Kedar Joshi, Aditya Kumar Guru, Kripabandhu Ghosh,
- Abstract要約: 我々は、4つの推論タスクにまたがる1,108の質問を伴う、第一種診断ベンチマークであるLogiQAteを提示する。
難読化はゼロショット性能を著しく低下させ, GPT-4oでは平均47%, GPT-5では27%, 推論モデルでは22%, o4-miniで平均47%低下した。
- 参考スコア(独自算出の注目度): 3.9997332571742934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks such as solving arithmetic equations, evaluating truth tables, and completing syllogisms are handled well by large language models (LLMs) in their standard form, but they often fail when the same problems are posed in logically equivalent yet obfuscated formats. To study this vulnerability, we introduce Logifus, a structure-preserving logical obfuscation framework, and, utilizing this, we present LogiQAte, a first-of-its-kind diagnostic benchmark with 1,108 questions across four reasoning tasks: (i) Obfus FOL (first-order logic entailment under equivalence-preserving rewrites), (ii) Obfus Blood Relation (family-graph entailment under indirect relational chains), (iii) Obfus Number Series (pattern induction under symbolic substitutions), and (iv) Obfus Direction Sense (navigation reasoning under altered directions and reference frames). Across all the tasks, evaluating six state-of-the-art models, we find that obfuscation severely degrades zero-shot performance, with performance dropping on average by 47% for GPT-4o, 27% for GPT-5, and 22% for reasoning model, o4-mini. Our findings reveal that current LLMs parse questions without deep understanding, highlighting the urgency of building models that genuinely comprehend and preserve meaning beyond surface form.
- Abstract(参考訳): 算術方程式の解法、真理表の評価、シロジズムの完成といったタスクは、その標準形式における大きな言語モデル(LLM)によってうまく扱われるが、同じ問題が論理的に等価だが難解な形式で表される場合、しばしば失敗する。
この脆弱性を研究するために、構造保存論理難読化フレームワークであるLogifusを導入し、これを利用して、4つの推論タスクに1,108の質問がある、第一種診断ベンチマークであるLogiQAteを提示する。
一 FOL(同値保存書き直しによる一階述語論理引き込み)
2【血縁関係】
三 障害数列(象徴的な置換によるパターン誘導)及び
(四)難方向感覚(修正方向及び参照枠の下での航法推論)
すべてのタスクにおいて,6つの最先端モデルを評価することで,難読化はゼロショット性能を著しく低下させ,GPT-4oでは平均47%,GPT-5では27%,推論モデルでは22%,o4-miniでは平均47%と低下することがわかった。
以上の結果から,現在のLLMは深い理解を伴わずに質問を解析し,真に理解し,意味を表わすモデルの構築の緊急性を強調した。
関連論文リスト
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation, and Goal-Aware Prompt Formulation [2.4073494101588273]
本研究は,論理的誤り検出のための新規かつ効果的な高速な定式化手法を提案する。
提案手法は暗黙の文脈情報を含む入力テキストを豊かにすることで,議論の文脈内での妥当性を問う。
5つのドメインから複数のデータセットにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-30T08:41:09Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。