Fugu-MT 論文翻訳(概要): V-STaR: Training Verifiers for Self-Taught Reasoners

論文の概要: V-STaR: Training Verifiers for Self-Taught Reasoners

arxiv url: http://arxiv.org/abs/2402.06457v1
Date: Fri, 9 Feb 2024 15:02:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 16:25:33.860860
Title: V-STaR: Training Verifiers for Self-Taught Reasoners
Title（参考訳）: V-STaR:自己学習型共振器の訓練検証器
Authors: Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni and Rishabh Agarwal
Abstract要約: 本稿では,自己改善プロセス中に生成した正解と誤解の両方を利用して検証器を訓練するV-STaRを提案する。 V-STaRは、既存の自己改善と検証アプローチよりも4%から17%の精度で改善されている。
参考スコア（独自算出の注目度）: 75.11811592995176
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Common self-improvement approaches for large language models (LLMs), such as STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However, these approaches discard the large amounts of incorrect solutions generated during this process, potentially neglecting valuable information in such solutions. To address this shortcoming, we propose V-STaR that utilizes both the correct and incorrect solutions generated during the self-improvement process to train a verifier using DPO that judges correctness of model-generated solutions. This verifier is used at inference time to select one solution among many candidate solutions. Running V-STaR for multiple iterations results in progressively better reasoners and verifiers, delivering a 4% to 17% test accuracy improvement over existing self-improvement and verification approaches on common code generation and math reasoning benchmarks with LLaMA2 models.
Abstract（参考訳）: STaR(Zelikman et al., 2022)のような大規模言語モデル(LLM)に対する共通的な自己改善アプローチは、自己生成ソリューション上で反復的に微調整され、問題解決能力が向上する。しかし、これらのアプローチは、このプロセス中に生成された大量の不正確なソリューションを破棄し、そのようなソリューションで貴重な情報を無視する可能性がある。そこで本研究では,自己改善プロセス中に生成した正解と誤解の両方を利用するV-STaRを提案し,モデル生成解の正解を判定するDPOを用いて検証器を訓練する。この検証器は推論時に多くの候補解の中から1つの解を選択するために用いられる。複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られ、LLaMA2モデルを用いた共通コード生成および数学推論ベンチマークにおける既存の自己改善および検証アプローチよりも4%から17%の精度が向上する。

関連論文リスト

Step-Wise Formal Verification for LLM-Based Mathematical Problem Solving [3.2233767737586674]
LLM(Large Language Models)は、数学的な問題を解く上で、強大な能力を示す。本稿では,形式化と批判を含むMATH-VFフレームワークを提案する。我々は,MATH500とProcessBenchという,広く利用されている数学ベンチマークの枠組みを評価した。
論文参考訳（メタデータ） (2025-05-27T08:21:07Z)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文参考訳（メタデータ） (2024-10-07T08:53:00Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。 Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文参考訳（メタデータ） (2024-09-18T17:12:41Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。 GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文参考訳（メタデータ） (2023-10-16T04:11:19Z)
A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文参考訳（メタデータ） (2021-06-14T05:47:41Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。