論文の概要: P1: Mastering Physics Olympiads with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.13612v1
- Date: Mon, 17 Nov 2025 17:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.63376
- Title: P1: Mastering Physics Olympiads with Reinforcement Learning
- Title(参考訳): P1:強化学習による物理オリンピックの習得
- Authors: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui,
- Abstract要約: 我々は、強化学習(RL)を通して完全に訓練されたオープンソースの物理推論モデルのファミリーであるP1を紹介する。
P1-235B-A22Bは、最新の国際物理オリンピック(IPhO 2025)でゴールドメディカルのパフォーマンスを持つ最初のオープンソースモデルであり、2024/2025年に13の国際・地域物理学コンペで12個の金メダルを獲得した。
P1-235B-A22B+PhysicsMinionsはIPhO 2025で総合1位を獲得し、13の物理学コンペティションで最高スコアを獲得した。
- 参考スコア(独自算出の注目度): 84.08897284032724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、パズル解きから科学グレードの推論へとフロンティアを移動させてきた。
物理学は、このシフトの最も鋭いテストであり、ほとんどの近代技術の基礎となる、基本的な方法でシンボルを現実に結合する。
本研究では,特にオリンピアードレベルの物理問題の解法に長けている,例外的な物理推論能力を持つ大規模言語モデルを開発することにより,物理学研究の進展に成功している。
我々は、強化学習(RL)を通して完全に訓練されたオープンソースの物理推論モデルのファミリーであるP1を紹介する。
P1-235B-A22Bは、最新の国際物理オリンピック(IPhO 2025)でゴールドメディカルのパフォーマンスを持つ最初のオープンソースモデルであり、2024/2025年に13の国際・地域物理学コンペで12個の金メダルを獲得した。
P1-30B-A3BはIPhO 2025の他のほとんどのオープンソースモデルを超え、銀メダルを獲得している。
さらにP1-235B-A22B+PhysicsMinionsはIPhO 2025で総合1位を獲得し、13の物理競技の平均スコアを得る。
物理学の他に、P1モデルは数学やコーディングといった他の推論タスクにも優れた性能を示し、P1級数の大きな一般化性を示している。
関連論文リスト
- PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System [65.02248709992442]
物理は現実世界の理解と形成の中心であり、物理問題を解く能力は現実世界の物理知能の重要な指標である。
既存のアプローチは主にシングルモデルベースであり、オープンソースのMLLMはゴールドメディカルレベルのパフォーマンスに達することは滅多にない。
我々は,物理オリンピアードの共進化的マルチエージェントシステムであるPhysorMinionsを提案する。
アーキテクチャには、ダイアグラムを解釈するVisual Studio、ソリューションを定式化するLogic Studio、デュアルステージ検証を実行するReview Studioの3つのシナジスティックスタジオがある。
論文 参考訳(メタデータ) (2025-09-29T14:40:53Z) - HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。
2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。
我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文 参考訳(メタデータ) (2025-09-09T16:24:51Z) - Physics Supernova: AI Agent Matches Elite Gold Medalists at IPhO 2025 [55.8464246603186]
物理問題解決能力に優れたAIシステムである物理超新星を紹介する。
超新星は23.5/30点を獲得し、406人の競技者の14位にランクインし、人間の金メダリストの中央値を上回っている。
これらの結果から,エージェントシステム内におけるツール統合の原則が,競争力の向上をもたらすことが示唆された。
論文 参考訳(メタデータ) (2025-09-01T17:59:13Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。