論文の概要: HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark?
- arxiv url: http://arxiv.org/abs/2509.07894v4
- Date: Fri, 19 Sep 2025 16:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.295022
- Title: HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark?
- Title(参考訳): HiPhO: 最新の高校の物理オリンピックベンチマークで人間から(M)LLMはどのくらいあるか?
- Authors: Fangchen Yu, Haiyuan Wan, Qianjia Cheng, Yuchen Zhang, Jiacheng Chen, Fujun Han, Yulun Wu, Junchi Yao, Ruilizhen Hu, Ning Ding, Yu Cheng, Tao Chen, Lei Bai, Dongzhan Zhou, Yun Luo, Ganqu Cui, Peng Ye,
- Abstract要約: HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。
2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。
我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
- 参考スコア(独自算出の注目度): 53.76627321546095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the physical capabilities of (M)LLMs have garnered increasing attention. However, existing benchmarks for physics suffer from two major gaps: they neither provide systematic and up-to-date coverage of real-world physics competitions such as physics Olympiads, nor enable direct performance comparison with humans. To bridge these gaps, we present HiPhO, the first benchmark dedicated to high school physics Olympiads with human-aligned evaluation. Specifically, HiPhO highlights three key innovations. (1) Comprehensive Data: It compiles 13 latest Olympiad exams from 2024-2025, spanning both international and regional competitions, and covering mixed modalities that encompass problems spanning text-only to diagram-based. (2) Professional Evaluation: We adopt official marking schemes to perform fine-grained grading at both the answer and step level, fully aligned with human examiners to ensure high-quality and domain-specific evaluation. (3) Comparison with Human Contestants: We assign gold, silver, and bronze medals to models based on official medal thresholds, thereby enabling direct comparison between (M)LLMs and human contestants. Our large-scale evaluation of 30 state-of-the-art (M)LLMs shows that: across 13 exams, open-source MLLMs mostly remain at or below the bronze level; open-source LLMs show promising progress with multiple golds; closed-source reasoning MLLMs can achieve 6 to 12 gold medals; and most models still have a significant gap from full marks. These results highlight the performance gap between open-source models and top students, the strong reasoning abilities of closed-source models, and the remaining room for improvement. HiPhO, a human-aligned Olympiad benchmark for multimodal physical reasoning, is open-source at https://github.com/SciYu/HiPhO with a public leaderboard at https://phyarena.github.io/.
- Abstract(参考訳): 近年, (M)LLMの物理的能力は増加傾向にある。
しかし、既存の物理学ベンチマークには2つの大きなギャップがある: 物理オリンピアードのような現実世界の物理学コンペティションの体系的および最新のカバレッジを提供したり、人間と直接のパフォーマンス比較を可能にしたりしない。
これらのギャップを埋めるために,人力による評価を施した高校物理オリンピアードのための最初のベンチマークであるHiPhOを紹介する。
特に、HiPhOは3つの重要なイノベーションを強調している。
1)総合データ:2024年から2025年までの13回のオリンピアード試験をコンパイルし,国際競争と地域競争を対象とし,テキストのみから図ベースの問題を含む多種多様なモダリティを網羅した。
2) 専門的評価: 回答レベルとステップレベルの両方できめ細かい格付けを行うための公式なマーキング手法を採用し, 高品質でドメイン固有の評価を確実にするために, ヒト検査官と完全に一致させた。
(3) 競技者との比較: 公式のメダル閾値に基づくモデルに金、銀、銅のメダルを割り当て、(M)LLMとヒトの競技者を直接比較できるようにする。
大規模な評価では、13の試験において、オープンソースMLLMは青銅レベル以下であり、オープンソースMLLMは複数の金で有望な進歩を示し、クローズソースMLLMは6から12の金メダルを獲得でき、ほとんどのモデルでは、まだフルマークと大きな差がある。
これらの結果は、オープンソースモデルとトップ学生のパフォーマンスギャップ、クローズドソースモデルの強力な推論能力、改善の余地を浮き彫りにしている。
HiPhOは、マルチモーダルな物理推論のための人間対応のOlympiadベンチマークである。HiPhOはhttps://github.com/SciYu/HiPhOでオープンソース化され、https://phyarena.github.io/..
関連論文リスト
- P1: Mastering Physics Olympiads with Reinforcement Learning [84.08897284032724]
我々は、強化学習(RL)を通して完全に訓練されたオープンソースの物理推論モデルのファミリーであるP1を紹介する。
P1-235B-A22Bは、最新の国際物理オリンピック(IPhO 2025)でゴールドメディカルのパフォーマンスを持つ最初のオープンソースモデルであり、2024/2025年に13の国際・地域物理学コンペで12個の金メダルを獲得した。
P1-235B-A22B+PhysicsMinionsはIPhO 2025で総合1位を獲得し、13の物理学コンペティションで最高スコアを獲得した。
論文 参考訳(メタデータ) (2025-11-17T17:18:13Z) - PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System [65.02248709992442]
物理は現実世界の理解と形成の中心であり、物理問題を解く能力は現実世界の物理知能の重要な指標である。
既存のアプローチは主にシングルモデルベースであり、オープンソースのMLLMはゴールドメディカルレベルのパフォーマンスに達することは滅多にない。
我々は,物理オリンピアードの共進化的マルチエージェントシステムであるPhysorMinionsを提案する。
アーキテクチャには、ダイアグラムを解釈するVisual Studio、ソリューションを定式化するLogic Studio、デュアルステージ検証を実行するReview Studioの3つのシナジスティックスタジオがある。
論文 参考訳(メタデータ) (2025-09-29T14:40:53Z) - EEFSUVA: A New Mathematical Olympiad Benchmark [1.7589620883907298]
我々は,大規模言語モデル (LLM) がOlympiad のゴールドメダルと数学ベンチマークの卒業レベルの習熟度に一致していると主張している。
我々は,東欧及び旧ソ連の国々で流通している地域および全国のオリンピアードから収集された新しいベンチマークであるEEFSUVAを紹介する。
予備的な結果は、最先端のLLMでさえ、他のオリンピアド型ベンチマークと比較して、EEFSUVAは顕著な性能低下を示していることを示唆している。
論文 参考訳(メタデータ) (2025-09-23T01:57:56Z) - RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning [26.173204350710833]
RIMOは、評価ノイズを排除しつつ、オリンピアードのピークの難しさを抑えるために設計された2トラックのベンチマークである。
最初のトラックであるRIMO-Nは、335の問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。
第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、ステップバイステップの推論プロセスを評価するためにサブプロブレムのシーケンスに分解される。
論文 参考訳(メタデータ) (2025-09-09T13:13:51Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。