論文の概要: Large Language Models Achieve Gold Medal Performance at International Astronomy & Astrophysics Olympiad
- arxiv url: http://arxiv.org/abs/2510.05016v1
- Date: Mon, 06 Oct 2025 16:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.998751
- Title: Large Language Models Achieve Gold Medal Performance at International Astronomy & Astrophysics Olympiad
- Title(参考訳): 国際天文学・天文学オリンピックにおける大規模言語モデルによる金メダル獲得
- Authors: Lucas Carrit Delgado Pinheiro, Ziru Chen, Bruno Caixeta Piazza, Ness Shroff, Yingbin Liang, Yuan-Sen Ting, Huan Sun,
- Abstract要約: 我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。
平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。
GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
- 参考スコア(独自算出の注目度): 43.53870250026015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While task-specific demonstrations show early success in applying large language models (LLMs) to automate some astronomical research tasks, they only provide incomplete views of all necessary capabilities in solving astronomy problems, calling for more thorough understanding of LLMs' strengths and limitations. So far, existing benchmarks and evaluations focus on simple question-answering that primarily tests astronomical knowledge and fails to evaluate the complex reasoning required for real-world research in the discipline. Here, we address this gap by systematically benchmarking five state-of-the-art LLMs on the International Olympiad on Astronomy and Astrophysics (IOAA) exams, which are designed to examine deep conceptual understanding, multi-step derivations, and multimodal analysis. With average scores of 85.6% and 84.2%, Gemini 2.5 Pro and GPT-5 (the two top-performing models) not only achieve gold medal level performance but also rank in the top two among ~200-300 participants in all four IOAA theory exams evaluated (2022-2025). In comparison, results on the data analysis exams show more divergence. GPT-5 still excels in the exams with an 88.5% average score, ranking top 10 among the participants in the four most recent IOAAs, while other models' performances drop to 48-76%. Furthermore, our in-depth error analysis underscores conceptual reasoning, geometric reasoning, and spatial visualization (52-79% accuracy) as consistent weaknesses among all LLMs. Hence, although LLMs approach peak human performance in theory exams, critical gaps must be addressed before they can serve as autonomous research agents in astronomy.
- Abstract(参考訳): タスク固有のデモンストレーションは、いくつかの天文学研究タスクを自動化するために大きな言語モデル(LLM)を適用した初期の成功を示しているが、天文学の問題を解く上で必要なすべての能力について不完全な見解しか示さず、LSMの強みと限界をより深く理解するよう要求している。
これまでのベンチマークや評価では、天文学的な知識を主にテストし、その分野における現実世界の研究に必要な複雑な推論を評価できない、単純な質問回答に焦点が当てられている。
ここでは,このギャップを,深い概念的理解,多段階の導出,マルチモーダル分析を目的とした国際天文学・天体物理学国際オリンピック(IOAA)試験の5つの最先端LCMを体系的にベンチマークすることで解決する。
平均スコアは85.6%と84.2%で、ジェミニ2.5 ProとGPT-5は金メダルレベルの成績を達成しただけでなく、4つのIOAA理論試験(2022-2025)で200-300人中上位2位にランクインした。
比較してデータ分析試験の結果は, よりばらつきが強い。
GPT-5は88.5%のスコアで試験に合格し、最新の4つのIOAAの参加者のうちトップ10にランクインし、他のモデルの成績は48-76%に低下した。
さらに, 奥行き誤差解析は, 概念的推論, 幾何学的推論, 空間的可視化(52-79%の精度)を, 全LSMにおいて一貫した弱点として評価する。
したがって、LLMは理論試験における人間のパフォーマンスのピークに近づいているが、天文学における自律的な研究エージェントとして機能する前には、致命的なギャップに対処する必要がある。
関連論文リスト
- ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems [47.451132653010774]
Acadreasonベンチマークは、LLMとエージェントが学術的知識を習得し、推論する能力を評価するために設計されている。
コンピュータ科学、経済学、法学、数学、哲学を含む5つの高レベル分野にまたがる50の専門的注釈付き学術問題で構成されている。
その結果、ほとんどのLPMは20点以下であり、最先端のGPT-5でも16点しか獲得できなかった。
論文 参考訳(メタデータ) (2025-10-13T17:30:36Z) - AstroMMBench: A Benchmark for Evaluating Multimodal Large Language Models Capabilities in Astronomy [6.247581175023764]
AstroMMBenchは、天文学的画像理解において、マルチモーダル大言語モデル(MLLM)を評価するための最初の包括的なベンチマークである。
AstroMMBenchは、6つの天体物理学のサブフィールドにわたる621の多重選択質問で構成され、品質と関連性について15のドメイン専門家によってキュレートされ、レビューされている。
結果、Ovis2-34Bは、強力なクローズドソースモデルと比較して高い総合精度(70.5%)を達成した。
論文 参考訳(メタデータ) (2025-09-29T09:02:30Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。