論文の概要: V-STaR: Training Verifiers for Self-Taught Reasoners
- arxiv url: http://arxiv.org/abs/2402.06457v1
- Date: Fri, 9 Feb 2024 15:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:25:33.860860
- Title: V-STaR: Training Verifiers for Self-Taught Reasoners
- Title(参考訳): V-STaR:自己学習型共振器の訓練検証器
- Authors: Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville,
Alessandro Sordoni and Rishabh Agarwal
- Abstract要約: 本稿では,自己改善プロセス中に生成した正解と誤解の両方を利用して検証器を訓練するV-STaRを提案する。
V-STaRは、既存の自己改善と検証アプローチよりも4%から17%の精度で改善されている。
- 参考スコア(独自算出の注目度): 75.11811592995176
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Common self-improvement approaches for large language models (LLMs), such as
STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated
solutions to improve their problem-solving ability. However, these approaches
discard the large amounts of incorrect solutions generated during this process,
potentially neglecting valuable information in such solutions. To address this
shortcoming, we propose V-STaR that utilizes both the correct and incorrect
solutions generated during the self-improvement process to train a verifier
using DPO that judges correctness of model-generated solutions. This verifier
is used at inference time to select one solution among many candidate
solutions. Running V-STaR for multiple iterations results in progressively
better reasoners and verifiers, delivering a 4% to 17% test accuracy
improvement over existing self-improvement and verification approaches on
common code generation and math reasoning benchmarks with LLaMA2 models.
- Abstract(参考訳): STaR(Zelikman et al., 2022)のような大規模言語モデル(LLM)に対する共通的な自己改善アプローチは、自己生成ソリューション上で反復的に微調整され、問題解決能力が向上する。
しかし、これらのアプローチは、このプロセス中に生成された大量の不正確なソリューションを破棄し、そのようなソリューションで貴重な情報を無視する可能性がある。
そこで本研究では,自己改善プロセス中に生成した正解と誤解の両方を利用するV-STaRを提案し,モデル生成解の正解を判定するDPOを用いて検証器を訓練する。
この検証器は推論時に多くの候補解の中から1つの解を選択するために用いられる。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られ、LLaMA2モデルを用いた共通コード生成および数学推論ベンチマークにおける既存の自己改善および検証アプローチよりも4%から17%の精度が向上する。
関連論文リスト
- Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - Enhancing SAEAs with Unevaluated Solutions: A Case Study of Relation
Model for Expensive Optimization [6.382398222493027]
本稿では,SAEAの効率を高めるために,未評価解を用いた枠組みを提案する。
代理モデルを用いて、評価無しに新しい解を直接生成するための高品質な解を同定する。
論文 参考訳(メタデータ) (2023-09-21T12:09:55Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Towards Explainable Metaheuristic: Mining Surrogate Fitness Models for
Importance of Variables [69.02115180674885]
4つのベンチマーク問題を用いて代理モデルを訓練し、代理モデルによる探索空間の学習について検討する。
代々の人口データに基づいて学習した結果,サロゲートモデルが問題の鍵となる特徴を抽出できることが示唆された。
論文 参考訳(メタデータ) (2022-05-31T09:16:18Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。