Fugu-MT 論文翻訳(概要): Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision

論文の概要: Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision

arxiv url: http://arxiv.org/abs/2402.02658v1
Date: Mon, 5 Feb 2024 00:57:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 18:11:26.379893
Title: Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision
Title（参考訳）: 検証器による多段階問題の解法:モデル誘起プロセススーパービジョンの実証分析
Authors: Zihan Wang, Yunxuan Li, Yuexin Wu, Liangchen Luo, Le Hou, Hongkun Yu, Jingbo Shang
Abstract要約: データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。 MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
参考スコア（独自算出の注目度）: 43.03988648915096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Process supervision, using a trained verifier to evaluate the intermediate steps generated by reasoner, has demonstrated significant improvements in multi-step problem solving. In this paper, to avoid expensive human annotation effort on the verifier training data, we introduce Model-induced Process Supervision (MiPS), a novel method for automating data curation. MiPS annotates an intermediate step by sampling completions of this solution through the reasoning model, and obtaining an accuracy defined as the proportion of correct completions. Errors in the reasoner would cause MiPS to underestimate the accuracy of intermediate steps, therefore, we suggest and empirically show that verification focusing on high predicted scores of the verifier shall be preferred over that of low predicted scores, contrary to prior work. Our approach significantly improves the performance of PaLM 2 on math and coding tasks (accuracy +0.67% on GSM8K, +4.16% on MATH, +0.92% on MBPP compared with an output supervision trained verifier). Additionally, our study demonstrates that the verifier exhibits strong generalization ability across different reasoning models.
Abstract（参考訳）: プロセス監視は、学習された検証器を用いて、推論器が生成する中間ステップを評価することで、多段階問題解決において大きな改善が示された。本稿では,検証者学習データに対する高価な人的アノテーションの取り組みを避けるために,データキュレーションを自動化する新しい手法であるモデル誘発プロセススーパービジョン(MiPS)を紹介する。 MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。推論者の誤りによりmipsは中間ステップの精度を過小評価してしまうため,検証者の高い予測スコアに着目した検証が,先行研究とは対照的に低い予測スコアの検証よりも望ましいことを示唆し,実証的に示す。提案手法は算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる(GSM8K では +0.67%,MATH では +4.16%,MBPP では +0.92%)。さらに, 検証器は, 異なる推論モデルにまたがる強い一般化能力を示すことを示した。

関連論文リスト

PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。現在の検証器は、しばしば導出欠陥を検出するのに失敗する。本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2026-02-12T04:45:01Z)
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
Rethinking BPS: A Utility-Based Evaluation Framework [6.590869939300887]
BPSモデルを評価するための最先端のアプローチには2つの重要な制限がある。シミュレーションを予測問題として扱い、モデルが目に見えない未来の事象を予測できるかどうかをテストする。代表的なプロセスの振る舞いを生成する能力に基づいて,シミュレーション品質を評価する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-28T13:00:52Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark [0.0]
マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。 ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
論文参考訳（メタデータ） (2025-01-02T15:10:52Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Semi-supervised 2D Human Pose Estimation via Adaptive Keypoint Masking [2.297586471170049]
本稿では,サンプル中の情報を完全にマイニングし,より優れた推定性能が得られる適応型キーポイントマスキング法を提案する。提案手法の有効性をCOCOとMPIIで検証し,最先端の半教師によるポーズ推定をそれぞれ5.2%と0.3%で上回った。
論文参考訳（メタデータ） (2024-04-23T08:41:50Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
A Study of Unsupervised Evaluation Metrics for Practical and Automatic Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文参考訳（メタデータ） (2023-08-01T05:01:05Z)
Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文参考訳（メタデータ） (2023-05-31T17:24:00Z)
Boosting Out-of-Distribution Detection with Multiple Pre-trained Models [41.66566916581451]
事前訓練されたモデルを用いたポストホック検出は有望な性能を示し、大規模にスケールできる。本稿では,事前訓練されたモデルの動物園から抽出した複数の検出決定をアンサンブルすることで,検出強化手法を提案する。 CIFAR10 と ImageNet のベンチマークでは, 相対性能を 65.40% と 26.96% で大幅に改善した。
論文参考訳（メタデータ） (2022-12-24T12:11:38Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。