論文の概要: Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1
- arxiv url: http://arxiv.org/abs/2508.10173v1
- Date: Wed, 13 Aug 2025 20:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.107965
- Title: Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1
- Title(参考訳): AIのベンチマーク駆動選択 - DeepSeek-R1からの証拠
- Authors: Petr Spelda, Vit Stritecky,
- Abstract要約: より優れたパフォーマンスは、必ずしもテスト時のアルゴリズム改善やモデルサイズによってもたらされるのではなく、影響のあるベンチマークを学習のカリキュラムとして使用することによってもたらされることを示す。
我々は、このベンチマーク駆動によるAIの選択と呼び、HumanityのLast Examからのシーケンシャルな意思決定問題を使用して、DeepSeek-R1への影響を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of reasoning language models gained importance after it was observed that they can combine their existing capabilities into novel traces of intermediate steps before task completion and that the traces can sometimes help them to generalize better than past models. As reasoning becomes the next scaling dimension of large language models, careful study of their capabilities in critical tasks is needed. We show that better performance is not always caused by test-time algorithmic improvements or model sizes but also by using impactful benchmarks as curricula for learning. We call this benchmark-driven selection of AI and show its effects on DeepSeek-R1 using our sequential decision-making problem from Humanity's Last Exam. Steering development of AI by impactful benchmarks trades evaluation for learning and makes novelty of test tasks key for measuring generalization capabilities of reasoning models. Consequently, some benchmarks could be seen as curricula for training rather than unseen test sets.
- Abstract(参考訳): 推論言語モデルの評価は、既存の能力をタスク完了前の中間段階の新たなトレースに組み合わせることや、そのトレースが過去のモデルよりも優れた一般化に役立つことが観察された後に重要になった。
推論が大規模言語モデルの次のスケールディメンションとなるため、重要なタスクにおけるそれらの能力について慎重に研究する必要がある。
より優れたパフォーマンスは、必ずしもテスト時のアルゴリズム改善やモデルサイズによってもたらされるのではなく、影響のあるベンチマークを学習のカリキュラムとして使用することによってもたらされることを示す。
我々は、このベンチマーク駆動によるAIの選択と呼び、HumanityのLast Examからのシーケンシャルな意思決定問題を使用して、DeepSeek-R1への影響を示す。
インパクトフルベンチマークによるAIのステアリングは、学習のための評価を交換し、推論モデルの一般化能力を測定するためのテストタスクの新規性をキーとする。
結果として、いくつかのベンチマークは、目に見えないテストセットではなく、トレーニングのためのカリキュラムと見なすことができる。
関連論文リスト
- Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Are Visual-Language Models Effective in Action Recognition? A Comparative Study [22.97135293252601]
本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2024-10-22T16:28:21Z) - Models of reference production: How do they withstand the test of time? [6.651864489482537]
本研究では,文脈の参照表現を生成するタスクをケーススタディとして使用し,GRECから分析を開始する。
より現実的なデータセットでモデルを評価すれば、モデルのパフォーマンスはどうなるのか、私たちは尋ねます。
我々は、GRECは、人間の参照生産を模倣するモデルの能力に対する信頼性の高い評価を提供するものではないと結論付けている。
論文 参考訳(メタデータ) (2023-07-27T12:46:38Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。