Fugu-MT 論文翻訳(概要): Test-Time Scaling with Reflective Generative Model

論文の概要: Test-Time Scaling with Reflective Generative Model

arxiv url: http://arxiv.org/abs/2507.01951v2
Date: Wed, 09 Jul 2025 12:28:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 13:22:10.041132
Title: Test-Time Scaling with Reflective Generative Model
Title（参考訳）: リフレクティブジェネレーティブモデルによるテスト時間スケーリング
Authors: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie,
Abstract要約: 我々は,新しいリフレクティブ生成形式を用いてOpenAI o3-miniの性能を得る,最初のリフレクティブ生成モデルであるMetaStone-S1を紹介する。我々のMetaStone-S1は、32Bのパラメータサイズしか持たないOpenAI o3-miniシリーズに匹敵する性能を実現している。
参考スコア（独自算出の注目度）: 56.681092287505564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3-mini's performance via the new Reflective Generative Form. The new form focuses on high-quality reasoning trajectory selection and contains two novelties: 1) A unified interface for policy and process reward model: we share the backbone network and use task-specific heads for reasoning trajectory predicting and scoring respectively, introducing only 53M extra parameters for trajectory scoring. 2) Eliminating the reliance on process-level annotation: we provide a self-supervised process reward model, which can directly learn the high-quality reasoning trajectory selection from the outcome reward. Equipped with the reflective generative form, MetaStone-S1 is naturally suitable for test-time scaling, and we provide three reasoning effort modes (low, medium, and high) based on the controllable thinking length. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
Abstract（参考訳）: 我々は,新しいリフレクティブ生成形式を用いてOpenAI o3-miniの性能を得る,最初のリフレクティブ生成モデルであるMetaStone-S1を紹介する。新しい形式は、高品質な推論軌道選択に焦点を当てており、2つの新しい特徴を含んでいる。 1) 方針とプロセス報酬モデルの統合インターフェース: バックボーンネットワークを共有し, 軌道予測とスコアリングにそれぞれタスク固有のヘッドを使用し, 軌道スコアのパラメータは53Mに過ぎなかった。 2) プロセスレベルのアノテーションへの依存を排除し, 結果報酬から高品質な推論軌道選択を直接学習できる自己監督型プロセス報酬モデルを提供する。反射型生成形式を備えたMetaStone-S1は自然にテスト時間スケーリングに適しており、制御可能な思考長に基づいて3つの推論モード(低, 中, 高)を提供する。実験の結果,MetaStone-S1は32Bのパラメータサイズしか持たないOpenAI o3-miniシリーズに匹敵する性能を示した。リサーチコミュニティをサポートするため、私たちはhttps://github.com/MetaStone-AI/MetaStone-S1でMetaStone-S1をオープンソース化しました。

関連論文リスト

Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文参考訳（メタデータ） (2025-06-21T21:49:02Z)
R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。 Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文参考訳（メタデータ） (2025-04-09T17:55:19Z)
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-04-01T15:21:05Z)
Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文参考訳（メタデータ） (2025-03-24T13:30:47Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文参考訳（メタデータ） (2025-01-23T18:18:15Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
Data-Driven Approaches for Modelling Target Behaviour [1.5495593104596401]
追跡アルゴリズムの性能は、対象の力学に関する選択されたモデル仮定に依存する。本稿では,物体の動きを記述するために機械学習を利用する3つの異なる手法の比較研究を行う。
論文参考訳（メタデータ） (2024-10-14T14:18:27Z)
Guided Self-attention: Find the Generalized Necessarily Distinct Vectors for Grain Size Grading [11.220653004059304]
粒径を分類するためのガイド付き自己注意を効果的に導入できる,ディープラーニング,すなわちGSNetsに基づく新しいクラスifi-cation法を提案する。実験の結果、GSNetは90.1%の精度を示し、最先端のSwin Transformer V2を1.9%上回っている。私たちのアプローチは、オブジェクト検出やセマンティックセグメンテーションといった、より広範なap-plicationに適用できると直感的に信じています。
論文参考訳（メタデータ） (2024-10-08T07:40:31Z)
Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文参考訳（メタデータ） (2023-05-30T11:34:57Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。 3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文参考訳（メタデータ） (2021-10-22T16:33:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。