論文の概要: GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.07160v2
- Date: Mon, 30 Jun 2025 13:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.633498
- Title: GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization
- Title(参考訳): GeometryZero: グループコントラストポリシー最適化によるLLMの幾何学解法の改善
- Authors: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang,
- Abstract要約: Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
- 参考スコア(独自算出の注目度): 63.107398132743825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, particularly in mathematical reasoning, amid which geometry problem solving remains a challenging area where auxiliary construction plays a enssential role. Existing approaches either achieve suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring massive computational costs. We posit that reinforcement learning with verifiable reward (e.g., GRPO) offers a promising direction for training smaller models that effectively combine auxiliary construction with robust geometric reasoning. However, directly applying GRPO to geometric reasoning presents fundamental limitations due to its dependence on unconditional rewards, which leads to indiscriminate and counterproductive auxiliary constructions. To address these challenges, we propose Group Contrastive Policy Optimization (GCPO), a novel reinforcement learning framework featuring two key innovations: (1) Group Contrastive Masking, which adaptively provides positive or negative reward signals for auxiliary construction based on contextual utility, and a (2) length reward that promotes longer reasoning chains. Building on GCPO, we develop GeometryZero, a family of affordable-size geometric reasoning models that judiciously determine when to employ auxiliary construction. Our extensive empirical evaluation across popular geometric benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models consistently outperform baselines (e.g. GRPO), achieving an average improvement of 4.29% across all benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に数学的な推論において、補助的な構造が意味のある役割を果たす困難な領域として、幾何学的問題解決が依然として残っている中で、様々な領域において顕著な能力を示している。
既存のアプローチは、最適以下の性能を達成するか、巨大なLCM(例えば、GPT-4o)に依存し、膨大な計算コストを発生させる。
我々は,検証可能な報酬(例えばGRPO)による強化学習が,補助的な構造と堅牢な幾何学的推論を効果的に組み合わせた,より小さなモデルのトレーニングに有望な方向を提供すると仮定する。
しかし、GRPOを直接幾何学的推論に適用すると、非条件の報酬に依存するため基本的な制限が示され、非差別的で非生産的な補助構成が導かれる。
これらの課題に対処するために,(1) 文脈的効用に基づく補助的な構築に対して正あるいは負の報酬信号を適応的に提供するグループ・コントラスト・マスキングと,(2) 長い推論連鎖を促進する長さ報酬という,2つの重要な革新を特徴とする新しい強化学習フレームワークであるグループ・コントラスト・ポリシー・オプティマイズ(GCPO)を提案する。
GCPO上に構築したGeometryZeroは、手頃なサイズの幾何学的推論モデルのファミリーで、補助的な建設をいつ行うべきかを判断する。
一般的な幾何ベンチマーク(Geometry3K, MathVista)における実験的な評価は、GeometryZeroモデルがベースライン(GRPOなど)を一貫して上回り、全てのベンチマークで平均4.29%の改善を実現していることを示している。
関連論文リスト
- Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.17265013728931003]
GRPO-LEADは数学的推論に適した新しい拡張セットである。
本研究は,(1)正確で正確な解法を奨励する長さ依存的精度報酬,(2)誤った答えを判断境界を鋭くするための明示的なペナルティメカニズム,(3)困難問題に対する学習シグナルを増幅する難易度の高い優位性再重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - Position: Beyond Euclidean -- Foundation Models Should Embrace Non-Euclidean Geometries [42.83280708842304]
ユークリッド空間は、機械学習アーキテクチャの事実上の幾何学的設定である。
大規模では、実世界のデータは、多方向関係、階層、対称性、非等方スケーリングなど、本質的に非ユークリッド構造を示すことが多い。
本稿では,ユークリッド幾何学を超越した移動は,単なる任意の拡張ではなく,次世代基礎モデルのスケーリング法則を維持することの必要性を論じる。
論文 参考訳(メタデータ) (2025-04-11T18:07:33Z) - Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。
我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:52:34Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - RMLR: Extending Multinomial Logistic Regression into General Geometries [64.16104856124029]
我々のフレームワークは、最小限の幾何学的性質しか必要とせず、広い適用性を示す。
SPD MLRの5つのファミリーを5種類のパワー変形測定値に基づいて開発する。
回転行列上では、人気のある双不変計量に基づいてリー MLR を提案する。
論文 参考訳(メタデータ) (2024-09-28T18:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。