論文の概要: Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision
- arxiv url: http://arxiv.org/abs/2402.02658v1
- Date: Mon, 5 Feb 2024 00:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:11:26.379893
- Title: Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision
- Title(参考訳): 検証器による多段階問題の解法:モデル誘起プロセススーパービジョンの実証分析
- Authors: Zihan Wang, Yunxuan Li, Yuexin Wu, Liangchen Luo, Le Hou, Hongkun Yu,
Jingbo Shang
- Abstract要約: データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 43.03988648915096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process supervision, using a trained verifier to evaluate the intermediate
steps generated by reasoner, has demonstrated significant improvements in
multi-step problem solving. In this paper, to avoid expensive human annotation
effort on the verifier training data, we introduce Model-induced Process
Supervision (MiPS), a novel method for automating data curation. MiPS annotates
an intermediate step by sampling completions of this solution through the
reasoning model, and obtaining an accuracy defined as the proportion of correct
completions. Errors in the reasoner would cause MiPS to underestimate the
accuracy of intermediate steps, therefore, we suggest and empirically show that
verification focusing on high predicted scores of the verifier shall be
preferred over that of low predicted scores, contrary to prior work. Our
approach significantly improves the performance of PaLM 2 on math and coding
tasks (accuracy +0.67% on GSM8K, +4.16% on MATH, +0.92% on MBPP compared with
an output supervision trained verifier). Additionally, our study demonstrates
that the verifier exhibits strong generalization ability across different
reasoning models.
- Abstract(参考訳): プロセス監視は、学習された検証器を用いて、推論器が生成する中間ステップを評価することで、多段階問題解決において大きな改善が示された。
本稿では,検証者学習データに対する高価な人的アノテーションの取り組みを避けるために,データキュレーションを自動化する新しい手法であるモデル誘発プロセススーパービジョン(MiPS)を紹介する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
推論者の誤りによりmipsは中間ステップの精度を過小評価してしまうため,検証者の高い予測スコアに着目した検証が,先行研究とは対照的に低い予測スコアの検証よりも望ましいことを示唆し,実証的に示す。
提案手法は算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる(GSM8K では +0.67%,MATH では +4.16%,MBPP では +0.92%)。
さらに, 検証器は, 異なる推論モデルにまたがる強い一般化能力を示すことを示した。
関連論文リスト
- Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Estimating Fr\'echet bounds for validating programmatic weak supervision [50.13475056199486]
我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。
プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Outcome-supervised Verifiers for Planning in Mathematical Reasoning [17.527674878272176]
アウトカム・スーパービジョン・バリュー・モデル(OVM)は、テキスト・プランニングの効率的かつ直感的な方法として、成果管理をトレーニングに採用している。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z) - Boosting Out-of-Distribution Detection with Multiple Pre-trained Models [41.66566916581451]
事前訓練されたモデルを用いたポストホック検出は有望な性能を示し、大規模にスケールできる。
本稿では,事前訓練されたモデルの動物園から抽出した複数の検出決定をアンサンブルすることで,検出強化手法を提案する。
CIFAR10 と ImageNet のベンチマークでは, 相対性能を 65.40% と 26.96% で大幅に改善した。
論文 参考訳(メタデータ) (2022-12-24T12:11:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。