論文の概要: LPDS: Evaluating LLM Robustness Through Logic-Preserving Difficulty Scaling
- arxiv url: http://arxiv.org/abs/2605.15393v1
- Date: Thu, 14 May 2026 20:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.09157
- Title: LPDS: Evaluating LLM Robustness Through Logic-Preserving Difficulty Scaling
- Title(参考訳): LPDS:論理保存困難スケーリングによるLCMロバスト性の評価
- Authors: Philipp Mondorf, Samuel J. Bell, Jesse Dodge, Dieuwke Hupkes,
- Abstract要約: 本稿では,問題変動の難易度を定量化するために,論理状態難易度(LPDS)を導入する。
困難が増すにつれて、モデルの推論における性能低下とエラーがより顕著になることを示す。
- 参考スコア(独自算出の注目度): 24.184930329823114
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed to perform tasks with minimal human oversight, it is crucial that these models operate robustly. In particular, a model that can solve a given problem should not fail simply because certain entities$\unicode{x2013}$such as names, numbers, or other contextual details$\unicode{x2013}$have changed while the underlying problem logic remains the same. Prior work suggests that current LLMs still struggle with this form of robustness: they often succeed on some variations of a problem but fail on others. However, existing evaluations often lack a systematic way to identify which logic-preserving variations are most likely to induce failure. Instead, they typically test a random subset of allowable variations, which can overstate robustness. To address this gap, we introduce logic-preserving difficulty scaling (LPDS), a framework that (i) quantifies the difficulty of a problem variation and (ii) systematically searches the space of allowable variations to find those that maximize difficulty and expose failures. We show that as difficulty increases, performance declines and errors in the models' reasoning chains become more pronounced. We further demonstrate that LPDS efficiently finds difficult problem variations for a model, resulting in performance drops up to 5 times larger compared to random sampling. Finally, we show that fine-tuning on more difficult variations leads to more consistent robustness gains than training on easier ones.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最小限の人間の監視でタスクを実行するためにますます多くデプロイされているため、これらのモデルが堅牢に動作することが重要である。
特に、ある問題を解くことができるモデルは、単に特定のエンティティ$\unicode{x2013}$、名前、数、その他の文脈の詳細$\unicode{x2013}$haveが変更され、根底にある問題ロジックは同じままであるから失敗するべきではない。
以前の研究は、現在のLLMが依然としてこのような堅牢性に苦しむことを示唆している。
しかし、既存の評価では、どのロジック保存のバリエーションが障害を引き起こす可能性が最も高いかを特定する体系的な方法が欠けていることが多い。
代わりに、通常は許容可能なバリエーションのランダムなサブセットをテストする。
このギャップに対処するために、我々は論理保存困難スケーリング(LPDS)というフレームワークを導入する。
一 問題のばらつきの難しさを定量化し、
(2)許容可能な変動の空間を体系的に探索し、困難を最大化し、失敗を露呈するものを見つける。
困難が増すにつれて、モデルの推論チェーンにおける性能低下とエラーがより顕著になることを示す。
さらに、LPDSはモデルの難解な問題変動を効果的に発見し、その結果、ランダムサンプリングに比べて最大5倍の性能低下が生じることを示した。
最後に、より難しいバリエーションの微調整が、より簡単なバリエーションのトレーニングよりも、一貫性のある堅牢性の向上につながることを示す。
関連論文リスト
- How Well Do LLMs Perform on the Simplest Long-Chain Reasoning Tasks: An Empirical Study on the Equivalence Class Problem [5.006638589584725]
我々は,最も単純な長鎖推論タスクにおいて,大規模言語モデルの性能を評価する。
非推論モデルはECPに失敗するが、推論モデルは大幅に改善されているが、この問題を完全に解くのに苦戦している。
論文 参考訳(メタデータ) (2026-05-07T19:31:43Z) - LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations [5.275682987885503]
我々は,前世代のアクティベーションに関する線形プローブを訓練し,数学やコーディングタスクにおける政策固有の成功を予測する。
モデルが人間の難易度とは異なる難易度のモデル固有の概念を符号化していることを示す。
モデルプールをまたいでクエリをルーティングすることは、最高のパフォーマンスモデルを超えることができることを実証する。
論文 参考訳(メタデータ) (2026-02-10T15:57:00Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。