論文の概要: Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.10534v2
- Date: Fri, 12 Dec 2025 13:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.194499
- Title: Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning
- Title(参考訳): 複雑強化強化学習によるオリンピアレベル大規模言語モデルエージェントの達成
- Authors: Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen,
- Abstract要約: 大規模言語モデル(LLM)エージェントは強力な数学的問題解決能力を示す。
本研究では,メダリストレベルのメダリストレベルのLLMエージェントの構築とインターンジオメトリの紹介を行う。
InternGeometryは、命題と補助的な構成を反復的に提案することで幾何学の限界を克服し、それらを記号エンジンで検証する。
InternThinker-32BをベースとしたInternGeometryは、50 IMOの幾何学的問題の44を解き、平均金メダリストスコア(40.9)を超える。
- 参考スコア(独自算出の注目度): 66.79506488139707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents exhibit strong mathematical problem-solving abilities and can even solve International Mathematical Olympiad (IMO) level problems with the assistance of formal proof systems. However, due to weak heuristics for auxiliary constructions, AI for geometry problem solving remains dominated by expert models such as AlphaGeometry 2, which rely heavily on large-scale data synthesis and search for both training and evaluation. In this work, we make the first attempt to build a medalist-level LLM agent for geometry and present InternGeometry. InternGeometry overcomes the heuristic limitations in geometry by iteratively proposing propositions and auxiliary constructions, verifying them with a symbolic engine, and reflecting on the engine's feedback to guide subsequent proposals. A dynamic memory mechanism enables InternGeometry to conduct more than two hundred interactions with the symbolic engine per problem. To further accelerate learning, we introduce Complexity-Boosting Reinforcement Learning (CBRL), which gradually increases the complexity of synthesized problems across training stages. Built on InternThinker-32B, InternGeometry solves 44 of 50 IMO geometry problems (2000-2024), exceeding the average gold medalist score (40.9), using only 13K training examples, just 0.004% of the data used by AlphaGeometry 2, demonstrating the potential of LLM agents on expert-level geometry tasks. InternGeometry can also propose novel auxiliary constructions for IMO problems that do not appear in human solutions. We will release the model, data, and symbolic engine to support future research.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは強力な数学的問題解決能力を示し、公式証明システムの助けを借りて国際数学オリンピアード(IMO)レベルの問題を解くことができる。
しかし、補助構造のための弱いヒューリスティックのため、幾何学的問題解決のためのAIは、大規模なデータ合成とトレーニングと評価の両方に大きく依存するAlphaGeometry 2のような専門家モデルに支配されている。
本研究では,メダリストレベルのメダリストレベルのLLMエージェントの構築とインターンジオメトリの紹介を行う。
InternGeometryは、提案と補助的な構成を反復的に提案し、それらをシンボルエンジンで検証し、エンジンのフィードバックを反映してその後の提案を導くことによって、幾何学におけるヒューリスティックな制限を克服する。
動的メモリ機構により、InternGeometryは問題ごとのシンボリックエンジンと200以上のインタラクションを行うことができる。
さらに学習を加速するため,CBRL(Complexity-Boosting Reinforcement Learning)を導入する。
InternThinker-32B上に構築されたInternGeometryは、平均金メダリストスコア(40.9)を超える50 IMO幾何問題(2000-2024)の44を、AlphaGeometry 2で使用されるデータのうちわずか0.004%で解決している。
InternGeometryはまた、人間の解には現れないIMO問題のための新しい補助的構成を提案することもできる。
将来の研究をサポートするために、モデル、データ、シンボリックエンジンをリリースします。
関連論文リスト
- Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions [129.877899436804]
本稿では、ニューラルネットワークに基づく推論に頼ることなく、CPU上で完全に動作する幾何定理証明の高効率な方法を提案する。
IMO(International Mathematical Olympiad)において,補助点を追加するための単純なランダム戦略により,銀・医療レベルの人的パフォーマンスが達成できることを示す。
さらに,HAGeo-409という,人為的な難易度を持つ409の幾何学的問題からなるベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-27T01:05:00Z) - Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2 [43.92309838336044]
我々はTrinh et al. (2024)で導入されたAlphaGeometryの大幅な改良版であるAlphaGeometry2を提案する。
これを実現するために、まず最初のAlphaGeometry言語を拡張して、オブジェクトの動きに関わる難しい問題に対処する。
これは国際数学オリンピック(IMO)2000-2024の幾何学問題を66%から88%に改善した。
論文 参考訳(メタデータ) (2025-02-05T19:02:03Z) - Proposing and solving olympiad geometry with guided tree search [63.824930029019995]
木探索に基づくガイド付き問題解決を支援するユークリッド幾何学システムであるTongGeometryを紹介する。
TongGeometryは、補助的な構成を必要とする67億の幾何学定理を発見した。
トンゲメトリーはIMO-AG-30ですべての国際数学オリンピック幾何学を解き、金メダリストを初めて上回った。
論文 参考訳(メタデータ) (2024-12-14T04:20:47Z) - Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learning [4.4615747404424395]
幾何学数学の問題は、大言語モデル(LLM)に重大な課題をもたらす
地理マス(GeoMath)と呼ばれる中国の高校教育Webサイトから,幾何学的データを抽出して,幾何学的質問応答データセットを収集する。
メタトレーニングと呼ばれる学習段階において、教師付き微調整(SFT)による検索強化を取り入れたGeo-LLaVAと呼ばれるLarge Multi-modal Model(LMM)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T07:34:09Z) - Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring [34.37450586634531]
本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。
GPSM4Kは7~12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。
このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
論文 参考訳(メタデータ) (2024-12-01T15:19:23Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。