論文の概要: Test-Time Scaling with Reflective Generative Model
- arxiv url: http://arxiv.org/abs/2507.01951v1
- Date: Wed, 02 Jul 2025 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.442396
- Title: Test-Time Scaling with Reflective Generative Model
- Title(参考訳): リフレクティブジェネレーティブモデルによるテスト時間スケーリング
- Authors: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie,
- Abstract要約: 自己監督プロセス報酬モデル(SPRM)を用いてOpenAI O3の性能を得る,最初の反射型生成モデルであるMetaStone-S1を紹介する。
SPRMを装備したMetaStone-S1は、テスト時間スケーリング(TTS)に自然に適している
実験の結果,MetaStone-S1は32Bのパラメータサイズしか持たないOpenAI-o3-miniシリーズに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 56.681092287505564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
- Abstract(参考訳): 自己教師型プロセス報酬モデル(SPRM)を用いてOpenAI O3の性能を得る,最初の反射型生成モデルであるMetaStone-S1を紹介する。
バックボーンネットワークを共有し、次のトークン予測とプロセススコアリングのためにタスク固有のヘッドを使用することにより、SPRMはポリシーモデルとプロセス報酬モデル(PRM)をプロセスアノテーションなしで統一インターフェースに統合し、効率的な推論のために99%以上のPRMパラメータを削減した。
SPRMを組み込んだMetaStone-S1は、テスト時間スケーリング(TTS)に自然に適しており、制御可能な思考長に基づいて3つの推論モード(低、中、高)を提供する。
さらに,総合的思考計算とTS性能の関係を明らかにするためのスケーリング法則を実証的に確立する。
実験の結果,MetaStone-S1は32Bのパラメータサイズしか持たないOpenAI-o3-miniシリーズに匹敵する性能を示した。
リサーチコミュニティをサポートするため、私たちはhttps://github.com/MetaStone-AI/MetaStone-S1でMetaStone-S1をオープンソース化しました。
関連論文リスト
- R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-01T15:21:05Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。