論文の概要: Robust Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2604.08571v1
- Date: Thu, 26 Mar 2026 22:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.438337
- Title: Robust Reasoning Benchmark
- Title(参考訳): Robust Reasoning Benchmark
- Authors: Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey,
- Abstract要約: LLM推論の堅牢性を評価するため,14の手法からなる摂動パイプラインを提案する。
このパイプラインをAIME 2024データセットに適用し、その結果のベンチマークで8つの最先端モデルを評価します。
その結果, 7B から 120B までの開度モデルと Claude Opus 4.6 がその後の問題に対して精度劣化を示した。
- 参考スコア(独自算出の注目度): 2.622879924644665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.
- Abstract(参考訳): LLM(Large Language Models)は、標準的な数学的ベンチマークで高いパフォーマンスを達成するが、その基礎となる推論プロセスは、標準的なテキストフォーマットに非常に適している。
LLM推論の堅牢性を評価するため,14の手法からなる摂動パイプラインを提案する。
このパイプラインをAIME 2024データセットに適用し、その結果のベンチマークで8つの最先端モデルを評価します。
フロンティアモデルが弾力性を示す一方で、オープンウェイト推論モデルは破滅的な崩壊(摂動によって平均精度が55%低下し、一部では最大100%低下)を経験し、構造的な不安定さを露呈する。
下流の推論失敗から機械的解析失敗をさらに遠ざけるために、モデルに1つのコンテキストウィンドウ内で連続的に複数の未摂動数学的問題を解くように強制することで、モデルの動作メモリ容量を厳格に分離する。
その結果, 7B から 120B までの開度モデルと Claude Opus 4.6 がその後の問題に対して精度劣化を示した。
この劣化は、中間的推論ステップが標準的高密度注意機構を永久に汚染することを示す。
信頼性のある推論を実現するためには、将来の推論アーキテクチャは、モデル自身のチェーン・オブ・サートに明示的な文脈的リセットを組み込まなければならない。
関連論文リスト
- On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning [63.41902113656453]
長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
2つの競合モデルによって生成された2つの検証されたCoT軌道源を用いて比較研究を行う。
textttDeepSeek-R1-0528データ上のSFTは、トレーニング損失を著しく低減するが、一般化性能は著しく低下する。
論文 参考訳(メタデータ) (2026-04-02T07:00:54Z) - The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning [9.898274894485107]
大きな言語モデルは、サージェントサーフェスキューが計算不可能な実行可能性制約と競合する場合に、体系的に失敗する。
診断・診断・ブリッジ・トリート・フレームワークを用いてこれを研究する。
論文 参考訳(メタデータ) (2026-03-30T21:36:09Z) - Unlocking Reasoning Capability on Machine Translation in Large Language Models [57.60641851466707]
推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。
明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
論文 参考訳(メタデータ) (2026-02-16T14:05:59Z) - Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - †DAGGER: Distractor-Aware Graph Generation for Executable Reasoning in Math Problems [1.2310602580215997]
CoT(Chain-of-Thought)プロンプトは数学的な問題解決に広く採用されているが、その無関係な文脈下での挙動は未解明のままである。
DisTRACTMATH-BN は、MGSM と MSVAMP を意味的に一貫性があるが、計算的に無関係な情報で拡張するベンチマークである。
DAGGERは、散逸ノードの明示的なモデリングで実行可能な計算グラフ生成として数学的問題解決を再構築する。
論文 参考訳(メタデータ) (2026-01-11T10:51:03Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models [0.0]
現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
本稿では,ロバスト性を測定するプロトコルであるDrill-Down Fabricate Test (DDFT)を紹介する。
フラッグシップモデルはスケールにもかかわらず脆さを示すのに対して、小さなモデルは堅牢なパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2025-12-29T20:29:09Z) - Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。