論文の概要: Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design
- arxiv url: http://arxiv.org/abs/2506.04734v2
- Date: Tue, 10 Jun 2025 06:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.267327
- Title: Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design
- Title(参考訳): 評価は必要なすべて:評価設計によるLCM推論能力の戦略的評価
- Authors: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang,
- Abstract要約: Deepseek-R1-Distillシリーズで表現される推論モデルは、オープンソースコミュニティで広く採用されている。
本研究により, 評価結果は, 種々の要因による大きな変動の影響を受けることが明らかとなった。
同様の現象は、Deepseek-R1-Distillシリーズに基づいて微調整された他のオープンソース推論モデルで観察される。
- 参考スコア(独自算出の注目度): 7.388313971664156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models represented by the Deepseek-R1-Distill series have been widely adopted by the open-source community due to their strong performance in mathematics, science, programming, and other domains. However, our study reveals that their benchmark evaluation results are subject to significant fluctuations caused by various factors. Subtle differences in evaluation conditions can lead to substantial variations in results. Similar phenomena are observed in other open-source inference models fine-tuned based on the Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their claimed performance improvements difficult to reproduce reliably. Therefore, we advocate for the establishment of a more rigorous paradigm for model performance evaluation and present our empirical assessments of the Deepseek-R1-Distill series models.
- Abstract(参考訳): Deepseek-R1-Distillシリーズで表現される推論モデルは、数学、科学、プログラミング、その他の領域での強いパフォーマンスのために、オープンソースコミュニティによって広く採用されている。
しかし,本研究では,ベンチマーク評価結果が種々の要因によって引き起こされる大きな揺らぎを伴っていることが明らかとなった。
評価条件の微妙な違いは、結果に大きな変化をもたらす可能性がある。
同様の現象は、Deepseek-R1-Distillシリーズに基づいて微調整された他のオープンソース推論モデルや、QwQ-32Bモデルでも見られる。
そこで我々は,モデル性能評価のためのより厳密なパラダイムの確立を提唱し,Deepseek-R1-Distillシリーズモデルの実証的評価を提示する。
関連論文リスト
- R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Quantifying the Capability Boundary of DeepSeek Models: An Application-Driven Performance Analysis [12.79754082920348]
DeepSeek-R1は様々なベンチマークで最先端のパフォーマンスを達成した。
我々は、拡張されたA-EvalベンチマークであるA-Eval-2.0を用いてDeepSeekとその関連モデルを評価する。
論文 参考訳(メタデータ) (2025-02-16T15:29:58Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - The Uncanny Valley: A Comprehensive Analysis of Diffusion Models [1.223779595809275]
拡散モデル (DM) は高品質な画像の生成に大きな進歩をもたらした。
ノイズスケジュールやサンプル,ガイダンスなど,さまざまなDMアーキテクチャのキーとなる側面について検討する。
比較分析の結果,拡散確率モデル(DDPM)に基づく拡散力学はノイズ条件付きスコアネットワーク(NCSN)より一貫して優れていた。
論文 参考訳(メタデータ) (2024-02-20T20:49:22Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。