論文の概要: V-STaR: Training Verifiers for Self-Taught Reasoners
- arxiv url: http://arxiv.org/abs/2402.06457v1
- Date: Fri, 9 Feb 2024 15:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:25:33.860860
- Title: V-STaR: Training Verifiers for Self-Taught Reasoners
- Title(参考訳): V-STaR:自己学習型共振器の訓練検証器
- Authors: Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville,
Alessandro Sordoni and Rishabh Agarwal
- Abstract要約: 本稿では,自己改善プロセス中に生成した正解と誤解の両方を利用して検証器を訓練するV-STaRを提案する。
V-STaRは、既存の自己改善と検証アプローチよりも4%から17%の精度で改善されている。
- 参考スコア(独自算出の注目度): 75.11811592995176
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Common self-improvement approaches for large language models (LLMs), such as
STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated
solutions to improve their problem-solving ability. However, these approaches
discard the large amounts of incorrect solutions generated during this process,
potentially neglecting valuable information in such solutions. To address this
shortcoming, we propose V-STaR that utilizes both the correct and incorrect
solutions generated during the self-improvement process to train a verifier
using DPO that judges correctness of model-generated solutions. This verifier
is used at inference time to select one solution among many candidate
solutions. Running V-STaR for multiple iterations results in progressively
better reasoners and verifiers, delivering a 4% to 17% test accuracy
improvement over existing self-improvement and verification approaches on
common code generation and math reasoning benchmarks with LLaMA2 models.
- Abstract(参考訳): STaR(Zelikman et al., 2022)のような大規模言語モデル(LLM)に対する共通的な自己改善アプローチは、自己生成ソリューション上で反復的に微調整され、問題解決能力が向上する。
しかし、これらのアプローチは、このプロセス中に生成された大量の不正確なソリューションを破棄し、そのようなソリューションで貴重な情報を無視する可能性がある。
そこで本研究では,自己改善プロセス中に生成した正解と誤解の両方を利用するV-STaRを提案し,モデル生成解の正解を判定するDPOを用いて検証器を訓練する。
この検証器は推論時に多くの候補解の中から1つの解を選択するために用いられる。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られ、LLaMA2モデルを用いた共通コード生成および数学推論ベンチマークにおける既存の自己改善および検証アプローチよりも4%から17%の精度が向上する。
関連論文リスト
- Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。