Fugu-MT 論文翻訳(概要): Shrinking the Generation-Verification Gap with Weak Verifiers

論文の概要: Shrinking the Generation-Verification Gap with Weak Verifiers

arxiv url: http://arxiv.org/abs/2506.18203v1
Date: Sun, 22 Jun 2025 23:38:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.804598
Title: Shrinking the Generation-Verification Gap with Weak Verifiers
Title（参考訳）: 弱検証器による生成検証ギャップの縮小
Authors: Jon Saad-Falcon, E. Kelly Buchanan, Mayee F. Chen, Tzu-Heng Huang, Brendan McLaughlin, Tanvir Bhathal, Shang Zhu, Ben Athiwaratkun, Frederic Sala, Scott Linderman, Azalia Mirhoseini, Christopher Ré,
Abstract要約: 検証者は、生成された候補から応答をスコア付けしてランク付けすることで、言語モデル機能を改善することができる。 Weaverは、複数の弱い不完全な検証器を組み合わせることで、強力な検証器を設計するためのフレームワークである。
参考スコア（独自算出の注目度）: 42.538675831498715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Verifiers can improve language model capabilities by scoring and ranking responses from generated candidates. Currently, high-quality verifiers are either unscalable (e.g., humans) or limited in utility (e.g., tools like Lean). While LM judges and reward models have become broadly useful as general-purpose verifiers, a significant performance gap remains between them and oracle verifiers (verifiers with perfect accuracy). To help close this gap, we introduce Weaver, a framework for designing a strong verifier by combining multiple weak, imperfect verifiers. We find weighted ensembles of verifiers, which typically require learning from labeled data, significantly outperform unweighted combinations due to differences in verifier accuracies. To reduce dependency on labeled data, Weaver leverages weak supervision to estimate each verifier's accuracy and combines outputs into a unified score that better reflects true response quality. However, directly applying weak supervision algorithms poses challenges, including inconsistent verifier output formats and handling low-quality verifiers. Weaver addresses these using dataset statistics to normalize outputs and filter specific verifiers. We study Weaver's effectiveness in test-time repeated sampling, where a model generates multiple candidate responses and selects one. Our evaluations show Weaver significantly improves over Pass@1-performance when selecting the first candidate-across reasoning and math tasks, achieving o3-mini-level accuracy with Llama 3.3 70B Instruct as generator, and an ensemble of 70B or smaller judge and reward models as verifiers (87.7% average). This gain mirrors the jump between GPT-4o and o3-mini (69.0% vs. 86.7%), which required extensive finetuning and post-training. To reduce computational costs of verifier ensembles, we train a 400M cross-encoder using Weaver's combined output scores.
Abstract（参考訳）: 検証者は、生成された候補から応答をスコア付けしてランク付けすることで、言語モデル機能を改善することができる。現在、高品質のバリデーションは(例えば、人間)スケールできないか、ユーティリティ(例えば、リーンのようなツール)に限られています。 LM判定と報奨モデルは汎用検証として広く有用となっているが、それらとオラクル検証(完全精度の検証)の間には大きな性能差が残っている。このギャップを埋めるために,複数の弱い不完全な検証器を組み合わせることで,強力な検証器を設計するためのフレームワークであるWeaverを導入する。ラベル付きデータからの学習を必要とする検証器の重み付けアンサンブルは、検証器の精度の違いにより、未重み付けの組合せを著しく上回っている。ラベル付きデータへの依存を減らすため、Weaverは弱い監督を利用して各検証者の精度を推定し、出力を真の応答品質を反映した統一スコアに結合する。しかし、弱い監督アルゴリズムを直接適用すると、一貫性のない検証書出力フォーマットや品質の低い検証書の処理などといった課題が生じる。 Weaverはデータセット統計を使用してこれらに対処し、出力を正規化し、特定の検証をフィルタする。ウィーバーの繰り返しサンプリングにおける有効性について検討し、モデルが複数の候補応答を生成して1つを選択する。 Llama 3.3 70B Instruct as generatorと70B以下の判定モデルと報奨モデル(平均87.7%)でo3-miniレベルの精度を実現した。この利得は GPT-4o と o3-mini (69.0% vs. 86.7%) の間のジャンプを反映し、広範囲の微調整と後訓練を必要とした。検証アンサンブルの計算コストを削減するため、Weaverの組合せ出力スコアを用いて400Mのクロスエンコーダを訓練する。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文参考訳（メタデータ） (2025-05-26T03:54:47Z)
Unsupervised Waste Classification By Dual-Encoder Contrastive Learning and Multi-Clustering Voting (DECMCV) [9.828020457690688]
本研究では,マルチクラスタリング投票(DECMCV)を用いた新しい教師なし手法であるデュアルエンコーダコントラスト学習を提案する。実際の4,169枚の廃画像のデータセットでは、数千の正確なラベル付けを行うには50個のラベル付きサンプルが必要であり、教師付きモデルと比較して分類精度は29.85%向上した。
論文参考訳（メタデータ） (2025-03-04T03:31:01Z)
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers [36.1723136776532]
マルチエージェント検証(Multi-Agent Verification、MAV)は、複数の検証器を組み合わせて性能を向上させるテスト時間計算パラダイムである。我々は,n個のベスト・オブ・nサンプリングと複数の検証器を組み合わせた,単純なマルチエージェント検証アルゴリズムであるBoN-MAVを紹介する。この結果から,テスト時の言語モデルの性能向上に期待できる新たな次元として,検証者の数を拡大することが確認できた。
論文参考訳（メタデータ） (2025-02-27T18:53:30Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文参考訳（メタデータ） (2025-02-01T02:08:49Z)
Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2023-05-26T04:23:10Z)
WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文参考訳（メタデータ） (2022-12-20T08:04:36Z)
Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文参考訳（メタデータ） (2022-03-22T20:24:21Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)
SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文参考訳（メタデータ） (2020-03-11T00:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。