論文の概要: Shrinking the Generation-Verification Gap with Weak Verifiers
- arxiv url: http://arxiv.org/abs/2506.18203v1
- Date: Sun, 22 Jun 2025 23:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.804598
- Title: Shrinking the Generation-Verification Gap with Weak Verifiers
- Title(参考訳): 弱検証器による生成検証ギャップの縮小
- Authors: Jon Saad-Falcon, E. Kelly Buchanan, Mayee F. Chen, Tzu-Heng Huang, Brendan McLaughlin, Tanvir Bhathal, Shang Zhu, Ben Athiwaratkun, Frederic Sala, Scott Linderman, Azalia Mirhoseini, Christopher Ré,
- Abstract要約: 検証者は、生成された候補から応答をスコア付けしてランク付けすることで、言語モデル機能を改善することができる。
Weaverは、複数の弱い不完全な検証器を組み合わせることで、強力な検証器を設計するためのフレームワークである。
- 参考スコア(独自算出の注目度): 42.538675831498715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verifiers can improve language model capabilities by scoring and ranking responses from generated candidates. Currently, high-quality verifiers are either unscalable (e.g., humans) or limited in utility (e.g., tools like Lean). While LM judges and reward models have become broadly useful as general-purpose verifiers, a significant performance gap remains between them and oracle verifiers (verifiers with perfect accuracy). To help close this gap, we introduce Weaver, a framework for designing a strong verifier by combining multiple weak, imperfect verifiers. We find weighted ensembles of verifiers, which typically require learning from labeled data, significantly outperform unweighted combinations due to differences in verifier accuracies. To reduce dependency on labeled data, Weaver leverages weak supervision to estimate each verifier's accuracy and combines outputs into a unified score that better reflects true response quality. However, directly applying weak supervision algorithms poses challenges, including inconsistent verifier output formats and handling low-quality verifiers. Weaver addresses these using dataset statistics to normalize outputs and filter specific verifiers. We study Weaver's effectiveness in test-time repeated sampling, where a model generates multiple candidate responses and selects one. Our evaluations show Weaver significantly improves over Pass@1-performance when selecting the first candidate-across reasoning and math tasks, achieving o3-mini-level accuracy with Llama 3.3 70B Instruct as generator, and an ensemble of 70B or smaller judge and reward models as verifiers (87.7% average). This gain mirrors the jump between GPT-4o and o3-mini (69.0% vs. 86.7%), which required extensive finetuning and post-training. To reduce computational costs of verifier ensembles, we train a 400M cross-encoder using Weaver's combined output scores.
- Abstract(参考訳): 検証者は、生成された候補から応答をスコア付けしてランク付けすることで、言語モデル機能を改善することができる。
現在、高品質のバリデーションは(例えば、人間)スケールできないか、ユーティリティ(例えば、リーンのようなツール)に限られています。
LM判定と報奨モデルは汎用検証として広く有用となっているが、それらとオラクル検証(完全精度の検証)の間には大きな性能差が残っている。
このギャップを埋めるために,複数の弱い不完全な検証器を組み合わせることで,強力な検証器を設計するためのフレームワークであるWeaverを導入する。
ラベル付きデータからの学習を必要とする検証器の重み付けアンサンブルは、検証器の精度の違いにより、未重み付けの組合せを著しく上回っている。
ラベル付きデータへの依存を減らすため、Weaverは弱い監督を利用して各検証者の精度を推定し、出力を真の応答品質を反映した統一スコアに結合する。
しかし、弱い監督アルゴリズムを直接適用すると、一貫性のない検証書出力フォーマットや品質の低い検証書の処理などといった課題が生じる。
Weaverはデータセット統計を使用してこれらに対処し、出力を正規化し、特定の検証をフィルタする。
ウィーバーの繰り返しサンプリングにおける有効性について検討し、モデルが複数の候補応答を生成して1つを選択する。
Llama 3.3 70B Instruct as generatorと70B以下の判定モデルと報奨モデル(平均87.7%)でo3-miniレベルの精度を実現した。
この利得は GPT-4o と o3-mini (69.0% vs. 86.7%) の間のジャンプを反映し、広範囲の微調整と後訓練を必要とした。
検証アンサンブルの計算コストを削減するため、Weaverの組合せ出力スコアを用いて400Mのクロスエンコーダを訓練する。
関連論文リスト
- Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。