論文の概要: Physics Supernova: AI Agent Matches Elite Gold Medalists at IPhO 2025
- arxiv url: http://arxiv.org/abs/2509.01659v1
- Date: Mon, 01 Sep 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.808457
- Title: Physics Supernova: AI Agent Matches Elite Gold Medalists at IPhO 2025
- Title(参考訳): 物理学の超新星:AIエージェントがIPhO 2025でエリート金メダリストと対戦
- Authors: Jiahao Qiu, Jingzhe Shi, Xinzhe Juan, Zelin Zhao, Jiayi Geng, Shilong Liu, Hongru Wang, Sanfeng Wu, Mengdi Wang,
- Abstract要約: 物理問題解決能力に優れたAIシステムである物理超新星を紹介する。
超新星は23.5/30点を獲得し、406人の競技者の14位にランクインし、人間の金メダリストの中央値を上回っている。
これらの結果から,エージェントシステム内におけるツール統合の原則が,競争力の向上をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 55.8464246603186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physics provides fundamental laws that describe and predict the natural world. AI systems aspiring toward more general, real-world intelligence must therefore demonstrate strong physics problem-solving abilities: to formulate and apply physical laws for explaining and predicting physical processes. The International Physics Olympiad (IPhO)--the world's most prestigious physics competition--offers a rigorous benchmark for this purpose. We introduce Physics Supernova, an AI agent system with superior physics problem-solving abilities that match elite IPhO gold medalists. In IPhO 2025 theory problems, Physics Supernova attains 23.5/30 points, ranking 14th of 406 contestants and surpassing the median performance of human gold medalists. We extensively analyzed Physics Supernova's capabilities and flexibility across diverse physics tasks. These results show that principled tool integration within agent systems can deliver competitive improvements in solving challenging science problems. The codes are available at https://github.com/CharlesQ9/Physics-Supernova.
- Abstract(参考訳): 物理学は自然界を記述し予測する基本的な法則を提供する。
したがって、より一般的な現実世界のインテリジェンスを目指すAIシステムは、物理プロセスの説明と予測に物理法則を定式化し適用するために、強力な物理問題解決能力を示す必要がある。
国際物理オリンピック(IPhO、International Physics Olympiad)は、世界で最も名高い物理学コンペティションである。
我々は,エリートIPhOゴールドメダリストに匹敵する優れた物理問題解決能力を持つAIエージェントシステムである物理超新星を紹介する。
IPhO 2025理論問題では、物理超新星は23.5/30点に達し、406人の競技者の14位にランクインし、人間の金メダリストの中央値を上回っている。
物理超新星の能力と柔軟性を多種多様な物理課題で広く分析した。
これらの結果から,エージェントシステム内でのツール統合の原則は,難解な科学問題の解決において,競争力の向上をもたらすことが示唆された。
コードはhttps://github.com/CharlesQ9/Physics-Supernova.comで公開されている。
関連論文リスト
- PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving [38.44445350202585]
大学レベルの物理問題解決のための総合的なベンチマークであるPHYSICSを紹介する。
古典力学、量子力学、熱力学、統計力学、電磁気学、原子物理学、光学の6つの中核領域をカバーする1297のエキスパート注釈付き問題を含んでいる。
論文 参考訳(メタデータ) (2025-03-26T06:21:56Z) - UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。