論文の概要: ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.06014v1
- Date: Tue, 07 Oct 2025 15:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.304467
- Title: ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models
- Title(参考訳): ARISE:大規模推論モデルにおけるテスト時間スケーリング評価のための適応分解能尺度
- Authors: Zhangyue Yin, Qiushi Sun, Zhiyuan Zeng, Zhiyuan Yu, Qipeng Guo, Xuanjing Huang, Xipeng Qiu,
- Abstract要約: ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
- 参考スコア(独自算出の注目度): 102.4511331368587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling has emerged as a transformative paradigm for enhancing the performance of large reasoning models, enabling dynamic allocation of computational resources during inference. However, as the landscape of reasoning models rapidly expands, a critical question remains: how can we systematically compare and evaluate the test-time scaling capabilities across different models? In this paper, we introduce ARISE (Adaptive Resolution-aware Scaling Evaluation), a novel metric specifically designed to assess the test-time scaling effectiveness of large reasoning models. Unlike existing evaluation approaches, ARISE incorporates two key innovations: (1) sample-level awareness that effectively penalizes negative scaling behaviors where increased computation leads to performance degradation, and (2) a dynamic sampling mechanism that mitigates the impact of accuracy fluctuations and token count instability on the final assessment. We conduct comprehensive experiments evaluating state-of-the-art reasoning models across diverse domains including mathematical reasoning, code generation, and agentic tasks. Our results demonstrate that ARISE provides a reliable and fine-grained measurement of test-time scaling capabilities, revealing significant variations in scaling efficiency across models. Notably, our evaluation identifies Claude Opus as exhibiting superior scaling characteristics compared to other contemporary reasoning models.
- Abstract(参考訳): テストタイムスケーリングは、大規模な推論モデルの性能を向上させるための変換パラダイムとして登場し、推論中に計算リソースの動的割り当てを可能にする。
しかし、推論モデルの状況が急速に拡大するにつれて、重要な疑問が残る: 異なるモデルにわたるテスト時間スケーリング機能を体系的に比較し、評価するにはどうすればよいのか?
本稿では,ARISE(Adaptive Resolution-aware Scaling Evaluation)について紹介する。
既存の評価手法とは異なり、ARISEは(1)計算量の増加が性能劣化につながる負のスケーリング動作を効果的に罰するサンプルレベルの認識と、(2)最終的な評価に対する精度変動とトークン数不安定の影響を緩和する動的サンプリング機構の2つの重要なイノベーションを取り入れている。
我々は、数学的推論、コード生成、エージェントタスクを含む様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
以上の結果から,ARISEは信頼性が高くきめ細かなテスト時間スケーリング能力の測定を行い,モデル間でのスケーリング効率の大幅な変化を明らかにした。
特に,Claude Opusは,他の現代的な推論モデルと比較して,スケーリング特性が優れていると評価した。
関連論文リスト
- Efficient Test-Time Scaling for Small Vision-Language Models [14.654047034885288]
小型ビジョンランゲージモデル (Small Vision-Language Models, VLM) は、より大きなモデルに対する計算的に効率的な代替手段を提供する。
既存の手法は典型的には計算的に要求され、小さなモデルの資源効率の高い設計目標と矛盾する。
外部監視よりもモデル内部の特徴を活用する新しい,効率的な2つのテストタイムスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2025-10-03T23:49:06Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。
本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。