論文の概要: Let's Verify Step by Step
- arxiv url: http://arxiv.org/abs/2305.20050v1
- Date: Wed, 31 May 2023 17:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 14:51:24.150382
- Title: Let's Verify Step by Step
- Title(参考訳): ステップバイステップで検証しましょう
- Authors: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen
Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
- Abstract要約: プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
- 参考スコア(独自算出の注目度): 73.58107073356732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models have greatly improved in their ability
to perform complex multi-step reasoning. However, even state-of-the-art models
still regularly produce logical mistakes. To train more reliable models, we can
turn either to outcome supervision, which provides feedback for a final result,
or process supervision, which provides feedback for each intermediate reasoning
step. Given the importance of training reliable models, and given the high cost
of human feedback, it is important to carefully compare the both methods.
Recent work has already begun this comparison, but many questions still remain.
We conduct our own investigation, finding that process supervision
significantly outperforms outcome supervision for training models to solve
problems from the challenging MATH dataset. Our process-supervised model solves
78% of problems from a representative subset of the MATH test set.
Additionally, we show that active learning significantly improves the efficacy
of process supervision. To support related research, we also release PRM800K,
the complete dataset of 800,000 step-level human feedback labels used to train
our best reward model.
- Abstract(参考訳): 近年、大規模言語モデルは複雑な多段階推論を行う能力を大幅に改善している。
しかし、最先端モデルでさえも定期的に論理的誤りを生じる。
より信頼性の高いモデルをトレーニングするために、最終結果に対するフィードバックを提供する結果監視と、中間推論の各ステップに対するフィードバックを提供するプロセス監視に切り替えることができます。
信頼性のあるモデルのトレーニングの重要性や人的フィードバックのコストが高いことから,両手法を慎重に比較することが重要である。
最近の研究はこの比較から始まっているが、まだ多くの疑問が残っている。
我々は、プロセスの監督がトレーニングモデルの結果の監督を著しく上回り、挑戦的なMATHデータセットの問題を解決するために独自の調査を行う。
プロセス制御モデルでは,MATHテストセットの代表部分集合から78%の問題を解く。
さらに,アクティブラーニングにより,プロセス監督の効果が著しく向上することを示す。
関連する研究を支援するために、私たちは最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kもリリースしました。
関連論文リスト
- Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision [43.03988648915096]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with
Language Models [116.19321613273311]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Training Verifiers to Solve Math Word Problems [12.307284507186342]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。
最大のトランスモデルでさえ高いテスト性能を達成できないことがわかった。
性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文 参考訳(メタデータ) (2021-10-27T04:49:45Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - How to Train Your Energy-Based Model for Regression [107.54411649704194]
近年,コンピュータビジョンにおいてエネルギーベースモデル (EBM) が普及している。
近年の作業では、回帰タスクにもESMを適用し、オブジェクト検出と視覚的トラッキングにおける最先端のパフォーマンスを実現している。
最高のレグレッションパフォーマンスのためにEBMをどのようにトレーニングするかは、十分に研究された問題ではありません。
論文 参考訳(メタデータ) (2020-05-04T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。