論文の概要: REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
- arxiv url: http://arxiv.org/abs/2507.10541v1
- Date: Mon, 14 Jul 2025 17:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.664746
- Title: REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
- Title(参考訳): REST: 複数の問題を一度に問うことで、大規模な推論モデルをテストするストレステスト
- Authors: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu,
- Abstract要約: ストレステストフレームワークであるREST(Reasoning Evaluation through Simultaneous Testing)を紹介します。
DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステストにおいてかなりの性能低下を示します。
- 参考スコア(独自算出の注目度): 33.049237516125146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Reasoning Models (LRMs) have achieved remarkable progress on task-specific benchmarks, yet their evaluation methods remain constrained by isolated problem-solving paradigms. Existing benchmarks predominantly assess single-question reasoning through sequential testing, resulting critical limitations: (1) vulnerability to data contamination and less challenging (e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual creation of new questions with large human efforts, (2) failure to evaluate models under multi-context pressure, a key requirement for real-world deployment. To bridge this gap, we present REST (Reasoning Evaluation through Simultaneous Testing), a stress-testing framework that concurrently exposes LRMs to multiple problems simultaneously. Beyond basic reasoning, REST specifically evaluates several under-tested capabilities: contextual priority allocation, cross-problem interference resistance, and dynamic cognitive load management. Our evaluation reveals several striking findings: Even state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance degradation under stress testing. Crucially, REST demonstrates stronger discriminative power than existing benchmarks, revealing pronounced performance differences among models that exhibit similar, near-ceiling performance under single-question evaluations. Some key mechanistic insights emerge from our analysis: (1) the "overthinking trap" is a critical factor contributing to the performance degradation; (2) the models trained with "long2short" technique preserve more accuracy of their single-problem performance under REST, outperforming standard-trained counterparts. These results establish REST as a cost-efficient, future-proof evaluation paradigm that better reflects real-world reasoning demands while reducing reliance on continuous human annotation.
- Abstract(参考訳): 近年のLarge Reasoning Models (LRM) はタスク固有のベンチマークにおいて顕著な進歩を遂げているが、それらの評価手法は独立した問題解決パラダイムによって制約されている。
例えば、DeepSeek-R1はMATH500で97.0%を達成し、大きな人間の努力による新しい質問のコストと恒久的な作成を強制し、(2)マルチコンテキストの圧力下でモデルを評価するのに失敗する。
このギャップを埋めるために、ストレステストフレームワークであるREST(Reasoning Evaluation through Simultaneous Testing)を紹介します。
基本的な推論の他に、RESTは、コンテキスト優先のアロケーション、クロスプロブレムの干渉抵抗、動的認知的負荷管理など、いくつかの未テストの機能を特に評価している。
DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステストにおいてかなりの性能低下を示します。
重要な点として、RESTは既存のベンチマークよりも差別的なパワーを強く示しており、シングルクエスト評価の下で同様の、ほぼ失敗に近いパフォーマンスを示すモデル間で、明らかにパフォーマンスの違いを明らかにしている。
1)"オーバーシンキングトラップ"はパフォーマンスの低下に寄与する重要な要因であり、(2)"ロング2ショート"テクニックでトレーニングされたモデルは、RESTの下でのシングルプロブレムのパフォーマンスをより正確に保ち、標準で訓練されたパフォーマンスよりも優れています。
これらの結果は、RESTをコスト効率が高く、将来的な評価パラダイムとして確立し、継続的な人間のアノテーションへの依存を減らすとともに、現実の推論要求をより良く反映します。
関連論文リスト
- VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks [25.295071827427677]
Emphbenchmarkの汚染は テスト問題の公開によって発生します
評価の脆弱さは、単一インスタンスの評価に依存することに起因する。
IME-MATHは、真の推論能力を調査するために設計されたシンボリック評価フレームワークである。
論文 参考訳(メタデータ) (2025-07-17T08:10:55Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Dissecting Long Reasoning Models: An Empirical Study [94.31064312707211]
強化学習(RL)における正・負のサンプルの役割を系統的に分析する。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination [18.05548914181797]
ベンチマークデータ汚染(BDC)-トレーニングセットにベンチマークテストサンプルを含めることで、LLM(Large Language Model)評価における懸念が高まった。
これを解決するために、研究者は既存のベンチマークを更新するための様々な緩和戦略を提案している。
従来の評価手法、例えば精度低下や精度のマッチングは、集計精度のみに焦点を合わせ、しばしば不完全あるいは誤解を招く結論に至る。
論文 参考訳(メタデータ) (2025-03-20T17:55:04Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - LR^2Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems [7.379503137362718]
LR$2$Benchは,Long-chain Reflective Reasoning機能を評価するために設計された新しいベンチマークである。
評価の結果,DeepSeek-R1 や OpenAI o1-preview のような先進的な LRM でさえ,LR$2$Bench のタスクと競合することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T04:51:17Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。