論文の概要: Perfect score on IPhO 2025 theory by Gemini agent
- arxiv url: http://arxiv.org/abs/2603.03352v1
- Date: Thu, 26 Feb 2026 18:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.010797
- Title: Perfect score on IPhO 2025 theory by Gemini agent
- Title(参考訳): Gemini エージェントによる IPhO 2025 理論の完全スコア
- Authors: Yichen Huang,
- Abstract要約: 国際物理オリンピック(International Physics Olympiad、IPhO)は、大学以前の学生のための国際物理学コンペティションである。
IPhO 2025理論問題に関して、AIモデルによる金メダルのパフォーマンスは以前報告されているが、最高の人間の競争相手に遅れている。
ここでは、Gemini 3.1 Pro Previewでシンプルなエージェントを構築します。
- 参考スコア(独自算出の注目度): 5.634825161148485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The International Physics Olympiad (IPhO) is the world's most prestigious and renowned physics competition for pre-university students. IPhO problems require complex reasoning based on deep understanding of physical principles in a standard general physics curriculum. On IPhO 2025 theory problems, while gold medal performance by AI models was reported previously, it falls behind the best human contestant. Here we build a simple agent with Gemini 3.1 Pro Preview. We run it five times and it achieved a perfect score every time. However, data contamination could occur because Gemini 3.1 Pro Preview was released after the competition.
- Abstract(参考訳): 国際物理オリンピック(International Physics Olympiad、IPhO)は、大学以前の学生のための国際物理学コンペティションである。
IPhO問題は、標準物理学のカリキュラムにおける物理原理の深い理解に基づく複雑な推論を必要とする。
IPhO 2025理論問題に関して、AIモデルによる金メダルのパフォーマンスは以前報告されているが、最高の人間の競争相手に遅れている。
ここでは、Gemini 3.1 Pro Previewでシンプルなエージェントを構築します。
私たちはそれを5回実行し、毎回完璧なスコアを獲得しました。
しかし、データ汚染は、ジェミニ3.1 Pro Previewが競技後にリリースされたため起こる可能性がある。
関連論文リスト
- P1: Mastering Physics Olympiads with Reinforcement Learning [84.08897284032724]
我々は、強化学習(RL)を通して完全に訓練されたオープンソースの物理推論モデルのファミリーであるP1を紹介する。
P1-235B-A22Bは、最新の国際物理オリンピック(IPhO 2025)でゴールドメディカルのパフォーマンスを持つ最初のオープンソースモデルであり、2024/2025年に13の国際・地域物理学コンペで12個の金メダルを獲得した。
P1-235B-A22B+PhysicsMinionsはIPhO 2025で総合1位を獲得し、13の物理学コンペティションで最高スコアを獲得した。
論文 参考訳(メタデータ) (2025-11-17T17:18:13Z) - LOCA-R: Near-Perfect Performance on the Chinese Physics Olympiad 2025 [3.5580730009417016]
複雑な推論に適応したLOCAフレームワークの改良版であるLOCA-R(LOgical Chain Augmentation for Reasoning)を紹介する。
LOCA-Rは320点中313点をほぼ完全なスコアで達成し、最高成績の人間よりもしっかりと上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:20:46Z) - PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System [65.02248709992442]
物理は現実世界の理解と形成の中心であり、物理問題を解く能力は現実世界の物理知能の重要な指標である。
既存のアプローチは主にシングルモデルベースであり、オープンソースのMLLMはゴールドメディカルレベルのパフォーマンスに達することは滅多にない。
我々は,物理オリンピアードの共進化的マルチエージェントシステムであるPhysorMinionsを提案する。
アーキテクチャには、ダイアグラムを解釈するVisual Studio、ソリューションを定式化するLogic Studio、デュアルステージ検証を実行するReview Studioの3つのシナジスティックスタジオがある。
論文 参考訳(メタデータ) (2025-09-29T14:40:53Z) - HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。
2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。
我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文 参考訳(メタデータ) (2025-09-09T16:24:51Z) - Physics Supernova: AI Agent Matches Elite Gold Medalists at IPhO 2025 [55.8464246603186]
物理問題解決能力に優れたAIシステムである物理超新星を紹介する。
超新星は23.5/30点を獲得し、406人の競技者の14位にランクインし、人間の金メダリストの中央値を上回っている。
これらの結果から,エージェントシステム内におけるツール統合の原則が,競争力の向上をもたらすことが示唆された。
論文 参考訳(メタデータ) (2025-09-01T17:59:13Z) - Winning Gold at IMO 2025 with a Model-Agnostic Verification-and-Refinement Pipeline [10.177917426690703]
大規模な言語モデルは、しばしばオリンピアードレベルの問題と競合する。
我々は,モデルに依存しない検証・修正パイプラインを構築した。
IMO 2025において、その効果を実証した。
論文 参考訳(メタデータ) (2025-07-21T17:59:49Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。