論文の概要: LOCA-R: Near-Perfect Performance on the Chinese Physics Olympiad 2025
- arxiv url: http://arxiv.org/abs/2511.10515v1
- Date: Fri, 14 Nov 2025 01:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.904091
- Title: LOCA-R: Near-Perfect Performance on the Chinese Physics Olympiad 2025
- Title(参考訳): LOCA-R:2025年の中国の物理オリンピックにおけるほぼ完璧なパフォーマンス
- Authors: Dong-Shan Jian, Xiang Li, Chen-Xu Yan, Hui-Wen Zheng, Zhi-Zhang Bian, You-Le Fang, Sheng-Qi Zhang, Bing-Rui Gong, Ren-Xi He, Jing-Tian Zhang, Ce Meng, Yan-Qing Ma,
- Abstract要約: 複雑な推論に適応したLOCAフレームワークの改良版であるLOCA-R(LOgical Chain Augmentation for Reasoning)を紹介する。
LOCA-Rは320点中313点をほぼ完全なスコアで達成し、最高成績の人間よりもしっかりと上回っている。
- 参考スコア(独自算出の注目度): 3.5580730009417016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Olympiad-level physics problem-solving presents a significant challenge for both humans and artificial intelligence (AI), as it requires a sophisticated integration of precise calculation, abstract reasoning, and a fundamental grasp of physical principles. The Chinese Physics Olympiad (CPhO), renowned for its complexity and depth, serves as an ideal and rigorous testbed for these advanced capabilities. In this paper, we introduce LOCA-R (LOgical Chain Augmentation for Reasoning), an improved version of the LOCA framework adapted for complex reasoning, and apply it to the CPhO 2025 theory examination. LOCA-R achieves a near-perfect score of 313 out of 320 points, solidly surpassing the highest-scoring human competitor and significantly outperforming all baseline methods.
- Abstract(参考訳): オリンピアドレベルの物理問題解決は、正確な計算、抽象的推論、物理原理の根本的な理解を必要とするため、人間と人工知能(AI)の両方にとって重要な課題である。
中国物理学オリンピアード(CPhO)は、その複雑さと深さで知られており、これらの高度な能力の理想的な厳密なテストベッドとして機能している。
本稿では,複雑な推論に適応したLOCAフレームワークの改良版であるLOCA-R(LOgical Chain Augmentation for Reasoning)を導入し,CPhO 2025理論試験に適用する。
LOCA-Rは320点中313点をほぼ完全なスコアで達成し、最強の人間の競争相手をしっかりと上回り、全てのベースライン法を著しく上回っている。
関連論文リスト
- PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System [65.02248709992442]
物理は現実世界の理解と形成の中心であり、物理問題を解く能力は現実世界の物理知能の重要な指標である。
既存のアプローチは主にシングルモデルベースであり、オープンソースのMLLMはゴールドメディカルレベルのパフォーマンスに達することは滅多にない。
我々は,物理オリンピアードの共進化的マルチエージェントシステムであるPhysorMinionsを提案する。
アーキテクチャには、ダイアグラムを解釈するVisual Studio、ソリューションを定式化するLogic Studio、デュアルステージ検証を実行するReview Studioの3つのシナジスティックスタジオがある。
論文 参考訳(メタデータ) (2025-09-29T14:40:53Z) - HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。
2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。
我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文 参考訳(メタデータ) (2025-09-09T16:24:51Z) - Physics Supernova: AI Agent Matches Elite Gold Medalists at IPhO 2025 [55.8464246603186]
物理問題解決能力に優れたAIシステムである物理超新星を紹介する。
超新星は23.5/30点を獲得し、406人の競技者の14位にランクインし、人間の金メダリストの中央値を上回っている。
これらの結果から,エージェントシステム内におけるツール統合の原則が,競争力の向上をもたらすことが示唆された。
論文 参考訳(メタデータ) (2025-09-01T17:59:13Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - NeurIPS 2024 ML4CFD Competition: Harnessing Machine Learning for Computational Fluid Dynamics in Airfoil Design [15.301599529509057]
この課題は、エアフォイル設計シミュレーション(Airfoil design simulation)という、確立された物理応用の基礎となる課題に焦点を当てている。
この競争はML駆動のサロゲート法を探求する先駆的な試みである。
このコンペティションは、参加するすべてのソリューションに対して、オンライントレーニングと評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T21:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。