論文の概要: Test-Time Scaling with Reflective Generative Model
- arxiv url: http://arxiv.org/abs/2507.01951v2
- Date: Wed, 09 Jul 2025 12:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.041132
- Title: Test-Time Scaling with Reflective Generative Model
- Title(参考訳): リフレクティブジェネレーティブモデルによるテスト時間スケーリング
- Authors: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie,
- Abstract要約: 我々は,新しいリフレクティブ生成形式を用いてOpenAI o3-miniの性能を得る,最初のリフレクティブ生成モデルであるMetaStone-S1を紹介する。
我々のMetaStone-S1は、32Bのパラメータサイズしか持たないOpenAI o3-miniシリーズに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 56.681092287505564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3-mini's performance via the new Reflective Generative Form. The new form focuses on high-quality reasoning trajectory selection and contains two novelties: 1) A unified interface for policy and process reward model: we share the backbone network and use task-specific heads for reasoning trajectory predicting and scoring respectively, introducing only 53M extra parameters for trajectory scoring. 2) Eliminating the reliance on process-level annotation: we provide a self-supervised process reward model, which can directly learn the high-quality reasoning trajectory selection from the outcome reward. Equipped with the reflective generative form, MetaStone-S1 is naturally suitable for test-time scaling, and we provide three reasoning effort modes (low, medium, and high) based on the controllable thinking length. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
- Abstract(参考訳): 我々は,新しいリフレクティブ生成形式を用いてOpenAI o3-miniの性能を得る,最初のリフレクティブ生成モデルであるMetaStone-S1を紹介する。
新しい形式は、高品質な推論軌道選択に焦点を当てており、2つの新しい特徴を含んでいる。
1) 方針とプロセス報酬モデルの統合インターフェース: バックボーンネットワークを共有し, 軌道予測とスコアリングにそれぞれタスク固有のヘッドを使用し, 軌道スコアのパラメータは53Mに過ぎなかった。
2) プロセスレベルのアノテーションへの依存を排除し, 結果報酬から高品質な推論軌道選択を直接学習できる自己監督型プロセス報酬モデルを提供する。
反射型生成形式を備えたMetaStone-S1は自然にテスト時間スケーリングに適しており、制御可能な思考長に基づいて3つの推論モード(低, 中, 高)を提供する。
実験の結果,MetaStone-S1は32Bのパラメータサイズしか持たないOpenAI o3-miniシリーズに匹敵する性能を示した。
リサーチコミュニティをサポートするため、私たちはhttps://github.com/MetaStone-AI/MetaStone-S1でMetaStone-S1をオープンソース化しました。
関連論文リスト
- R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-01T15:21:05Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。