論文の概要: Gemini 2.5 Pro Capable of Winning Gold at IMO 2025
- arxiv url: http://arxiv.org/abs/2507.15855v3
- Date: Fri, 25 Jul 2025 17:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.205269
- Title: Gemini 2.5 Pro Capable of Winning Gold at IMO 2025
- Title(参考訳): ジェミニ2.5、IMO2025で金メダル獲得可能
- Authors: Yichen Huang, Lin F. Yang,
- Abstract要約: 大規模言語モデル(LLM)は、AIMEのような数学的なベンチマークでうまく機能するが、オリンピアードレベルのタスクと競合する。
新たにリリースされたIMO 2025問題では、GoogleのGemini 2.5 Proを使って、データの汚染を避けています。
- 参考スコア(独自算出の注目度): 18.316261231537023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The International Mathematical Olympiad (IMO) poses uniquely challenging problems requiring deep insight, creativity, and formal reasoning. While Large Language Models (LLMs) perform well on mathematical benchmarks like AIME, they struggle with Olympiad-level tasks. We use Google's Gemini 2.5 Pro on the newly released IMO 2025 problems, avoiding data contamination. Using a self-verification pipeline with careful prompt design, 5 (out of 6) problems are solved correctly. This result underscores the importance of developing optimal strategies to harness the full potential of powerful LLMs for complex reasoning tasks.
- Abstract(参考訳): 国際数学オリンピック(International Mathematical Olympiad, IMO)は、深い洞察力、創造性、形式的な推論を必要とする独特な課題を提起する。
大規模言語モデル (LLM) は AIME のような数学的なベンチマークではうまく機能するが、オリンピアードレベルのタスクでは苦労する。
新たにリリースされたIMO 2025問題では、GoogleのGemini 2.5 Proを使って、データの汚染を避けています。
慎重に設計した自己検証パイプラインを使用して、5つ(6つのうち)の問題を正しく解決する。
この結果は、複雑な推論タスクに強力なLLMの潜在能力を最大限活用するための最適な戦略を開発することの重要性を浮き彫りにしている。
関連論文リスト
- Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving [36.20164235042574]
本研究では,レムマ型全耐久推論モデルである textbfSeed-Prover を提案する。
IMOレベルの競合問題を解決するために、深い推論と広い推論の両方を可能にする3つのテストタイム推論戦略を設計する。
シード・プロバーは、過去のIMO問題の78.1%ドルを証明し、ミニF2Fを飽和させ、パットナムベンチで50%以上を達成し、それまでの最先端よりも大きな差を付けた。
論文 参考訳(メタデータ) (2025-07-31T17:00:30Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [0.8030359871216614]
我々は2025年のUSAMOの6つの問題に対して、最先端の推論モデルを評価する。
Gemini-2.5-Proのみが25%という非自明なスコアを達成している。
以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-27T19:21:05Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - HARP: A challenging human-annotated math reasoning benchmark [7.691786865279827]
本稿では,米国数学コンペティション(A(J)HSME,AMC,AIME,USA(J)MO)の5,409個の問題からなるHARP(Human Annotated Reasoning Problems)を紹介する。
そのうち4,780の回答は自動的にチェックできる(SymPyなどのライブラリで)。
これらの問題には6つの難易度があり、フロンティアモデルは197の最も難しいブラケット(平均41.1%のo1-mini、9.6%のGemini 1.5 Pro)で比較的性能が劣っている。
私たちのデータセットには、複数の選択肢(4,110問題)と、平均2つの人書き文字も備えています。
論文 参考訳(メタデータ) (2024-12-11T23:31:06Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。