論文の概要: Cross-Platform Evaluation of Reasoning Capabilities in Foundation Models
- arxiv url: http://arxiv.org/abs/2510.26732v1
- Date: Thu, 30 Oct 2025 17:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.942019
- Title: Cross-Platform Evaluation of Reasoning Capabilities in Foundation Models
- Title(参考訳): 基礎モデルにおける推論能力のクロスプラットフォーム評価
- Authors: J. de Curtò, I. de Zarzà, Pablo García, Jordi Cabot,
- Abstract要約: 8つの学術領域にまたがる79の課題にまたがる15の基礎モデルを評価する。
我々は,HPCスーパーコンピューティング,クラウドプラットフォーム,大学クラスタという,3つの計算パラダイムにまたがるインフラストラクチャに依存しないベンチマークを確立する。
この結果は、従来のスケーリング仮定に挑戦し、トレーニングデータ品質をモデルサイズよりも重要なものにし、教育、生産、研究のコンテキストをまたいだモデル選択のための実行可能なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 1.2045707771719028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive cross-platform evaluation of reasoning capabilities in contemporary foundation models, establishing an infrastructure-agnostic benchmark across three computational paradigms: HPC supercomputing (MareNostrum 5), cloud platforms (Nebius AI Studio), and university clusters (a node with eight H200 GPUs). We evaluate 15 foundation models across 79 problems spanning eight academic domains (Physics, Mathematics, Chemistry, Economics, Biology, Statistics, Calculus, and Optimization) through three experimental phases: (1) Baseline establishment: Six models (Mixtral-8x7B, Phi-3, LLaMA 3.1-8B, Gemma-2-9b, Mistral-7B, OLMo-7B) evaluated on 19 problems using MareNostrum 5, establishing methodology and reference performance; (2) Infrastructure validation: The 19-problem benchmark repeated on university cluster (seven models including Falcon-Mamba state-space architecture) and Nebius AI Studio (nine state-of-the-art models: Hermes-4 70B/405B, LLaMA 3.1-405B/3.3-70B, Qwen3 30B/235B, DeepSeek-R1, GPT-OSS 20B/120B) to confirm infrastructure-agnostic reproducibility; (3) Extended evaluation: Full 79-problem assessment on both university cluster and Nebius platforms, probing generalization at scale across architectural diversity. The findings challenge conventional scaling assumptions, establish training data quality as more critical than model size, and provide actionable guidelines for model selection across educational, production, and research contexts. The tri-infrastructure methodology and 79-problem benchmark enable longitudinal tracking of reasoning capabilities as foundation models evolve.
- Abstract(参考訳): 本稿では,HPCスーパーコンピューティング(MareNostrum 5),クラウドプラットフォーム(Nebius AI Studio),大学クラスタ(8つのH200 GPUを持つノード)という3つの計算パラダイムにまたがるインフラストラクチャ非依存のベンチマークを確立する。
1)ベースラインの確立:6つのモデル(Mixtral-8x7B, Phi-3, LLaMA 3.1-8B, Gemma-2-9b, Mistral-7B, OLMo-7B)を、MareNostrum 5を用いて評価し、方法論と基準性能を確立した。
この結果は、従来のスケーリング仮定に挑戦し、トレーニングデータ品質をモデルサイズよりも重要なものにし、教育、生産、研究のコンテキストをまたいだモデル選択のための実行可能なガイドラインを提供する。
三層構造法と79プロブレムのベンチマークは、基礎モデルの発展に伴って推論能力の経時的追跡を可能にする。
関連論文リスト
- Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。
MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。
最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T14:30:11Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。