論文の概要: FUSE: Ensembling Verifiers with Zero Labeled Data
- arxiv url: http://arxiv.org/abs/2604.18547v1
- Date: Mon, 20 Apr 2026 17:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.023179
- Title: FUSE: Ensembling Verifiers with Zero Labeled Data
- Title(参考訳): FUSE:ゼロラベルデータで検証子を組み立てる
- Authors: Joonhyuk Lee, Virginia Ma, Sarah Zhao, Yash Nair, Asher Spector, Regev Cohen, Emmanuel J. Candès,
- Abstract要約: FUSE(Fully Unsupervised Score Ensembling)は、正当性ラベルにアクセスせずに検証器をアンサンブルすることで、検証品質を向上させる手法である。
ゼロ・グラウンドの真理ラベルを必要とするが、FUSEは通常テスト時間スケーリングの実験において、半教師ありの代替品と一致または改善する。
- 参考スコア(独自算出の注目度): 11.563701622899295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verification of model outputs is rapidly emerging as a key primitive for both training and real-world deployment of large language models (LLMs). In practice, this often involves using imperfect LLM judges and reward models since ground truth acquisition can be time-consuming and expensive. We introduce Fully Unsupervised Score Ensembling (FUSE), a method for improving verification quality by ensembling verifiers without access to ground truth correctness labels. The key idea behind FUSE is to control conditional dependencies between verifiers in a manner that improves the unsupervised performance of a class of spectral algorithms from the ensembling literature. Despite requiring zero ground truth labels, FUSE typically matches or improves upon semi-supervised alternatives in test-time scaling experiments with diverse sets of generator models, verifiers, and benchmarks. In particular, we validate our method on both conventional academic benchmarks such as GPQA Diamond and on frontier, unsaturated benchmarks such as Humanity's Last Exam and IMO Shortlist questions.
- Abstract(参考訳): モデル出力の検証は、大規模言語モデル(LLM)のトレーニングと実世界のデプロイの両面で重要なプリミティブとして急速に発展しつつある。
実際、これはしばしば不完全なLLM審査員と報酬モデルを使用する。
FUSE(Fully Unsupervised Score Ensembling)は,正当性ラベルにアクセスせずに検証器をアンサンブルすることで,検証品質を向上させる手法である。
FUSEの背景にある鍵となる考え方は、検証者間の条件依存を制御し、アンサンブル文学からスペクトルアルゴリズムのクラスを教師なしのパフォーマンスを向上させることである。
ゼロ・グラウンドの真理ラベルを必要とするにもかかわらず、FUSEは通常、様々なジェネレータモデル、検証器、ベンチマークを用いたテスト時間スケーリング実験において、半教師付きの代替品に適合または改善する。
特に,GPQAダイアモンドなどの従来の学術ベンチマークと,HumanityのLast ExamやIMO Shortlistのような未飽和ベンチマークを併用して評価を行った。
関連論文リスト
- The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。
我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。