論文の概要: Evaluating Robustness of Reasoning Models on Parameterized Logical Problems
- arxiv url: http://arxiv.org/abs/2602.12665v1
- Date: Fri, 13 Feb 2026 06:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.873089
- Title: Evaluating Robustness of Reasoning Models on Parameterized Logical Problems
- Title(参考訳): パラメータ化論理問題に対する推論モデルのロバスト性評価
- Authors: Naïm Es-sebbani, Esteban Marquer, Yakoub Salhi, Zied Bouraoui,
- Abstract要約: LogicはLSMベースの推論を評価するための制御されたテストベッドを提供する。
SATスタイルの標準ベンチマークでは、表面の難易度(長さ、単語、節順)を実際に満足度を決定する構造現象と区別することが多い。
構造化2-CNF式をパラメータ化して構築した2-SATの診断ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 20.78623024814435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logic provides a controlled testbed for evaluating LLM-based reasoners, yet standard SAT-style benchmarks often conflate surface difficulty (length, wording, clause order) with the structural phenomena that actually determine satisfiability. We introduce a diagnostic benchmark for 2-SAT built from parameterized families of structured 2--CNF formulas, where satisfiability is characterized by the implication graph and can be tuned along interpretable axes. Our generators isolate distinct competencies and failure modes: (i) contradiction-cycle UNSAT cores with controllable size and imbalance, (ii) SAT instances with a prescribed fraction of free variables to control solution multiplicity, (iii) planted backbones that modulate propagation, (iv) late bridge clauses that couple otherwise monotone regions to probe sensitivity to ordering and revision, and (v) symmetry/duplication variants that test abstraction under renaming and redundant structure. We evaluate LLM-based reasoners on decision accuracy and assignment validity, and quantify robustness under semantics-preserving perturbations such as clause reordering, filler clauses, and variable renaming. Across models, we observe sharp performance transitions under targeted structural interventions even when surface statistics are held fixed, revealing brittleness regimes that are invisible to aggregate SAT accuracy.
- Abstract(参考訳): Logic は LLM ベースの推論器を評価するための制御されたテストベッドを提供するが、SAT スタイルの標準ベンチマークでは表面の難易度(長さ、単語、節順)を実際に満足度を決定する構造的現象と区別することが多い。
構造化2-CNF式をパラメータ化して構築した2-SATの診断ベンチマークを導入する。
私たちのジェネレータは、異なる能力と障害モードを分離します。
(i)制御可能なサイズと不均衡を有する矛盾サイクルUNSATコア
(ii)解乗数を制御するために、所定の数の自由変数を持つSATインスタンス。
三 伝播を調節する背骨を植えたもの
四 注文及び改定に対する感度を調査するために単調地域を結合する遅発橋の節
(v)リネームおよび冗長構造の下で抽象化をテストする対称性/重複変種。
決定精度と割当て妥当性をLLMベースの推論器を用いて評価し,節順,フィラー節,変数リネーミングなどの節順保存摂動条件下でのロバスト性を定量化する。
モデル全体では,表面統計値が固定された場合でも,対象構造的介入の下での急激な性能遷移が観察され,SAT精度を集計できない脆性状態が明らかとなった。
関連論文リスト
- Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study [0.3437656066916039]
テキストから言語までを2段階のプロセスとしてモデル化するフレームワークであるCLUESを提案する。
意味的不確実性を曖昧性スコアと不安定性スコアに分解する。
CLUESは最先端のカーネルエントロピー行列の故障予測を改善する。
論文 参考訳(メタデータ) (2026-02-12T14:46:20Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression [3.3492355863487275]
大規模言語モデル(LLM)は多くの自然言語処理において高い性能を達成するが、論理規則系の構造的摂動下での一般化は依然として不十分である。
本研究では,4つの応力試験による推理信頼性の検証を行う制御評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-06T10:49:50Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - Quantifying perturbation impacts for large language models [49.1574468325115]
本稿では、頻繁な仮説テスト問題として摂動解析を再構成するフレームワークDBPAを紹介する。
摂動影響評価におけるDBPAの有効性を示すとともに,摂動解析の汎用性を示す。
論文 参考訳(メタデータ) (2024-12-01T16:13:09Z) - Data-light Uncertainty Set Merging with Admissibility [5.140740197135575]
本稿では、多種多様かつ潜在的に依存する不確実性集合を単一の統一集合にマージする、Synthetics, Aggregation, and Test Inversion (SAT) アプローチを紹介する。
SATは初期セットと制御レベルのみが利用可能である場合、不確実セットを統合するという課題によって動機付けられている。
主要な理論的貢献はSATの特性の厳密な解析であり、決定論的集合の融合の文脈における許容性を含む。
論文 参考訳(メタデータ) (2024-10-16T03:52:47Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。