論文の概要: Generative Verifiers: Reward Modeling as Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2408.15240v1
- Date: Tue, 27 Aug 2024 17:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:53:10.581680
- Title: Generative Verifiers: Reward Modeling as Next-Token Prediction
- Title(参考訳): 生成検証:次世代予測としてのリワードモデリング
- Authors: Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, Rishabh Agarwal,
- Abstract要約: 本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。
我々は,アルゴリズムおよび小学校数学推論タスクにおいて,Gemmaベースの検証器を用いる場合,差別的検証器やLLM-as-a-Judgeよりも優れた性能を示すことを示した。
- 参考スコア(独自算出の注目度): 29.543787728397643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verifiers or reward models are often used to enhance the reasoning performance of large language models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers are typically trained as discriminative classifiers to score solutions, they do not utilize the text generation capabilities of pretrained LLMs. To overcome this limitation, we instead propose training verifiers using the ubiquitous next-token prediction objective, jointly on verification and solution generation. Compared to standard verifiers, such generative verifiers (GenRM) can benefit from several advantages of LLMs: they integrate seamlessly with instruction tuning, enable chain-of-thought reasoning, and can utilize additional inference-time compute via majority voting for better verification. We demonstrate that when using Gemma-based verifiers on algorithmic and grade-school math reasoning tasks, GenRM outperforms discriminative verifiers and LLM-as-a-Judge, showing a 16-64% improvement in the percentage of problems solved with Best-of-N. Furthermore, we show that GenRM scales favorably across dataset size, model capacity, and inference-time compute.
- Abstract(参考訳): 検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。
一般的なアプローチはBest-of-N法であり、LLMによって生成されるN候補解は検証器によってランク付けされ、最もよい解が選択される。
LLMベースの検証は、通常、解を採点するために識別分類器として訓練されるが、事前訓練されたLLMのテキスト生成能力は利用しない。
この制限を克服するために、我々は、ユビキタスな次世代予測目標を用いて、検証とソリューション生成を共同で行うトレーニング検証を提案する。
このような生成検証器(genRM)は、標準的な検証器と比較して、命令チューニングとシームレスに統合し、チェーン・オブ・シント推論を可能にし、多数決による推論時間計算を有効活用することで、LLMのいくつかの利点を享受できる。
我々は,アルゴリズムおよび小学校数学推論タスクにおいて,Gemmaベースの検証器を用いる場合,差別的検証器やLLM-as-a-Judgeよりも優れた性能を示し,Best-of-Nで解決した問題の割合が16~64%向上したことを示した。
さらに、GenRMはデータセットのサイズ、モデルキャパシティ、推論時間計算に好適にスケール可能であることを示す。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。
実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-18T13:17:26Z) - SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses [49.148206387394936]
モデルでは、初期応答を生成するよりも、以前に生成した代替品間での識別性が確実に向上しないことが示される。
この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。
論文 参考訳(メタデータ) (2024-04-04T20:27:37Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。