論文の概要: Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward
- arxiv url: http://arxiv.org/abs/2601.05073v1
- Date: Thu, 08 Jan 2026 16:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.271435
- Title: Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward
- Title(参考訳): アウトカムに関するマイルストーン:サブゴール検証リワードによる幾何学的推論のアンロック
- Authors: Jianlong Chen, Daocheng Fu, Shengze Xu, Jiawei Chen, Yuan Feng, Yue Yang, Junchi Yan, Hongyuan Zha, Renqiu Xia,
- Abstract要約: サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 67.00373428443879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) struggle with complex geometric reasoning, largely because "black box" outcome-based supervision fails to distinguish between lucky guesses and rigorous deduction. To address this, we introduce a paradigm shift towards subgoal-level evaluation and learning. We first construct GeoGoal, a benchmark synthesized via a rigorous formal verification data engine, which converts abstract proofs into verifiable numeric subgoals. This structure reveals a critical divergence between reasoning quality and outcome accuracy. Leveraging this, we propose the Sub-Goal Verifiable Reward (SGVR) framework, which replaces sparse signals with dense rewards based on the Skeleton Rate. Experiments demonstrate that SGVR not only enhances geometric performance (+9.7%) but also exhibits strong generalization, transferring gains to general math (+8.0%) and other general reasoning tasks (+2.8%), demonstrating broad applicability across diverse domains.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は複雑な幾何学的推論に苦しむが、これは主に「ブラックボックス」結果に基づく監督が、幸運な推測と厳密な推論を区別できないためである。
これを解決するために,サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず、厳密な形式検証データエンジンを用いて合成されたベンチマークであるGeoGoalを構築し、抽象的な証明を検証可能な数値サブゴールに変換する。
この構造は、推論品質と結果の正確性の間に重要な違いを明らかにしている。
そこで我々は,スケルトンレートに基づいて,スパース信号を高密度の報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
実験により、SGVRは幾何学的性能(+9.7%)を向上するだけでなく、強い一般化を示し、一般数学(+8.0%)や他の一般的な推論タスク(+2.8%)に利得を移し、様々な領域に適用可能であることを示した。
関連論文リスト
- How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Multi-chain Graph Refinement and Selection for Reliable Reasoning in Large Language Models [7.230514235208748]
我々は、MGRS(Multi-chain Graph Refinement & Selection)と呼ばれる新しい推論フレームワークを提案する。
MGRSは推論手法の推論能力と計算効率の両方を著しく向上させる。
24ポイントのゲームでは、MGRSは初めて100%の精度を達成し、主要なフォレスト・オブ・ソートズ・フレームワークと比較して13.6倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-11-28T12:35:16Z) - EffiReason-Bench: A Unified Benchmark for Evaluating and Advancing Efficient Reasoning in Large Language Models [32.041688648831794]
EffiReason-Benchは、効率的な推論手法の厳密なクロスパラダイム評価のための統一ベンチマークである。
ステップバイステップ評価を実現するため,CommonsenseQAとLogiQAの認証済みCoTアノテーションを構築した。
本稿では,不連続性を伴わないスムーズで安定した評価を提供する経済トレードオフモデルに着想を得た原則的指標であるE3-Scoreを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:14:46Z) - Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。