論文の概要: Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision
- arxiv url: http://arxiv.org/abs/2402.02658v2
- Date: Mon, 14 Oct 2024 19:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:02.884597
- Title: Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision
- Title(参考訳): 検証器による多段階問題の解法--モデル誘起プロセススーパービジョンの実証分析
- Authors: Zihan Wang, Yunxuan Li, Yuexin Wu, Liangchen Luo, Le Hou, Hongkun Yu, Jingbo Shang,
- Abstract要約: データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 40.984680166762345
- License:
- Abstract: Process supervision, using a trained verifier to evaluate the intermediate steps generated by a reasoner, has demonstrated significant improvements in multi-step problem solving. In this paper, to avoid the expensive effort of human annotation on the verifier training data, we introduce Model-induced Process Supervision (MiPS), a novel method for automating data curation. MiPS annotates an intermediate step by sampling completions of this solution through the reasoning model, and obtaining an accuracy defined as the proportion of correct completions. Inaccuracies of the reasoner would cause MiPS underestimating the accuracy of intermediate steps, therefore, we suggest and empirically show that verification focusing on high predicted scores of the verifier shall be preferred over that of low predicted scores, contrary to prior observations on human curated data. Our approach significantly improves the performance of PaLM 2 on math and coding tasks (accuracy +0.67% on GSM8K, +4.16% on MATH, +0.92% on MBPP compared with an output supervision trained verifier). Additionally, our study demonstrates that the verifier exhibits strong generalization ability across different reasoning models.
- Abstract(参考訳): プロセス監視は、学習された検証器を用いて、推論器が生成する中間ステップを評価することで、多段階問題解決の大幅な改善を実証している。
本稿では,検証者学習データに対する人為的アノテーションのコスト負担を回避するために,データキュレーションを自動化する新しい手法であるモデル誘発プロセススーパービジョン(MiPS)を紹介する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
中間段階の精度をMIPSが過小評価する原因となる原因として,検証者の高い予測スコアに着目した検証が,ヒトのキュレートされたデータに対する先行観測と対照的に,低い予測スコアの検証よりも優先されることが示唆され,実証的に示唆された。
提案手法は算数および符号化タスクにおける PaLM 2 の性能を大幅に向上させる(GSM8K では +0.67%,MATH では +4.16%,MBPP では +0.92%)。
さらに, 検証器は, 異なる推論モデルにまたがる強い一般化能力を示すことを示した。
関連論文リスト
- Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。
我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - Semi-supervised 2D Human Pose Estimation via Adaptive Keypoint Masking [2.297586471170049]
本稿では,サンプル中の情報を完全にマイニングし,より優れた推定性能が得られる適応型キーポイントマスキング法を提案する。
提案手法の有効性をCOCOとMPIIで検証し,最先端の半教師によるポーズ推定をそれぞれ5.2%と0.3%で上回った。
論文 参考訳(メタデータ) (2024-04-23T08:41:50Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z) - Boosting Out-of-Distribution Detection with Multiple Pre-trained Models [41.66566916581451]
事前訓練されたモデルを用いたポストホック検出は有望な性能を示し、大規模にスケールできる。
本稿では,事前訓練されたモデルの動物園から抽出した複数の検出決定をアンサンブルすることで,検出強化手法を提案する。
CIFAR10 と ImageNet のベンチマークでは, 相対性能を 65.40% と 26.96% で大幅に改善した。
論文 参考訳(メタデータ) (2022-12-24T12:11:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。