論文の概要: Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI's Latest Open Source Models
- arxiv url: http://arxiv.org/abs/2508.12461v1
- Date: Sun, 17 Aug 2025 18:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.782076
- Title: Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI's Latest Open Source Models
- Title(参考訳): GPT-OSSは良いか? OpenAIの最新オープンソースモデルの総合評価
- Authors: Ziqian Bi, Keyu Chen, Chiung-Yi Tseng, Danyang Zhang, Tianyang Wang, Hongying Luo, Lu Chen, Junming Huang, Jibin Guan, Junfeng Hao, Junhao Song,
- Abstract要約: 2025年8月、OpenAIはGPT-OSSモデルをリリースした。
両変種を,14.7Bから235Bまでの6つの現代オープンソース大言語モデルと比較した。
どちらのモデルも、コード生成の相対的な長所と、多言語タスクの顕著な弱点によって、現在のオープンソースランドスケープにおける中間層全体のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 9.660702347605339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In August 2025, OpenAI released GPT-OSS models, its first open weight large language models since GPT-2 in 2019, comprising two mixture of experts architectures with 120B and 20B parameters. We evaluated both variants against six contemporary open source large language models ranging from 14.7B to 235B parameters, representing both dense and sparse designs, across ten benchmarks covering general knowledge, mathematical reasoning, code generation, multilingual understanding, and conversational ability. All models were tested in unquantised form under standardised inference settings, with statistical validation using McNemars test and effect size analysis. Results show that gpt-oss-20B consistently outperforms gpt-oss-120B on several benchmarks, such as HumanEval and MMLU, despite requiring substantially less memory and energy per response. Both models demonstrate mid-tier overall performance within the current open source landscape, with relative strength in code generation and notable weaknesses in multilingual tasks. These findings provide empirical evidence that scaling in sparse architectures may not yield proportional performance gains, underscoring the need for further investigation into optimisation strategies and informing more efficient model selection for future open source deployments.
- Abstract(参考訳): 2025年8月、OpenAIはGPT-OSSモデルをリリースした。
汎用知識,数学的推論,コード生成,多言語理解,会話能力を含む10のベンチマークにおいて,14.7Bから235Bのパラメータを含む6つの現代のオープンソース大言語モデルに対して,両変種を比較検討した。
全てのモデルは、McNemarsテストとエフェクトサイズ分析を用いて統計的検証を行い、標準化された推論設定の下で不等式で試験された。
以上の結果から,gpt-oss-20BはHumanEvalやMMLUなどいくつかのベンチマークでgpt-oss-120Bを上回った。
どちらのモデルも、コード生成の相対的な長所と、多言語タスクの顕著な弱点によって、現在のオープンソースランドスケープにおける中間層全体のパフォーマンスを示している。
これらの結果は、スパースアーキテクチャにおけるスケーリングが比例的なパフォーマンス向上をもたらすことはないという実証的な証拠を提供し、最適化戦略のさらなる調査の必要性と、将来のオープンソースデプロイメントのためのより効率的なモデル選択の実施を裏付けている。
関連論文リスト
- gpt-oss-120b & gpt-oss-20b Model Card [128.07668730833967]
精度と推論コストのフロンティアを推し進める2つのオープンウェイト推論モデルを提案する。
モデルは効率的な混合型変圧器アーキテクチャを使用しており、大規模な蒸留と強化学習を用いて訓練されている。
論文 参考訳(メタデータ) (2025-08-08T19:24:38Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - Evidence of interrelated cognitive-like capabilities in large language models: Indications of artificial general intelligence or achievement? [0.0]
大規模言語モデル (LLM) は、人工知能(AI)システムであり、人間の知能テストで一般的に見られる様々なタスクを実行できる。
また,テストスコアが正の相関を示すかどうかを検討した。
正の多様体と能力の一般因子の強い経験的証拠を発見した。
論文 参考訳(メタデータ) (2023-10-17T22:42:12Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。