論文の概要: CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks
- arxiv url: http://arxiv.org/abs/2606.03650v1
- Date: Tue, 02 Jun 2026 13:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.037448
- Title: CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks
- Title(参考訳): CoEval: ラベル付きデータや信頼できるベンチマークのないカスタムタスクのための言語モデルランキング
- Authors: Alexander Apartsin, Yehudit Aperstein,
- Abstract要約: CoEvalは、特定のアプリケーションに対して言語モデルを選択またはランク付けするための再利用可能なフレームワークである。
ラベルのない新しい属性制御ベンチマークを合成し、各ランでアイテムが新たに生成されるため、汚染のない。
クロスファミリーの裁判官アンサンブルは、人間のレイパーなしで候補者モデルをランク付けします。
- 参考スコア(独自算出の注目度): 47.027290803102666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Choosing or ranking language models for a specific application is hardest when no task-specific labeled data exists, and standard public benchmarks cannot be trusted, their items having likely leaked into pretraining, so scores reflect memorization rather than fitness. We present CoEval, an open-source, reusable framework that closes this gap end to end: from only a description of a task or domain, teacher models synthesize a fresh, attribute-controlled benchmark with no human labels, contamination-free because items are generated anew on each run, and a cross-family judge ensemble ranks candidate models with no human raters. Validated where ground truth exists, CoEval recovers the true model ranking and tracks ground-truth correctness at ho=0.86. The label-free judging needs no human calibration because judge-panel composition (vendor diversity), not size, drives reliability: a small, well-chosen cross-family panel is most reliable, while a single judge can be anti-correlated with ground truth (judge-choice regret 0.35) and the ensemble never is. Generated items show zero verbatim 13-gram overlap with five major public benchmarks; the panel cancels verbosity bias and precludes same-family self-preference. A four-task study produced 7,978 evaluations for USD 5.89. The same declarative pipeline applies to any domain and is cheap enough to re-run on every model release: a label-free, contamination-free leaderboard any team can regenerate for its own application.
- Abstract(参考訳): 特定のアプリケーションに対する言語モデルの選択やランキングは、タスク固有のラベル付きデータが存在しなければ最も難しく、標準の公開ベンチマークは信頼できない。
このギャップを埋める、オープンソースの再利用可能なフレームワークであるCoEvalを紹介します。タスクやドメインの記述のみから、教師モデルは、人間ラベルのない新しい属性制御ベンチマークを合成します。
基底真理の存在が確認されたCoEvalは、真のモデルランキングを回復し、ho=0.86で地上真正性を追跡する。
ラベルフリーの判断は、サイズではなく、審査パネルの構成(ベンダーの多様性)が信頼性を高めるため、人間の校正を必要としない。
生成された項目は、5つの主要な公開ベンチマークと0の動詞の13グラムの重複を示し、パネルは冗長性バイアスをキャンセルし、同家族の自己選好を妨げている。
4つのタスクの研究により、USD 5.89に対して7,978の評価が得られた。
同じ宣言的パイプラインが任意のドメインに適用され、すべてのモデルリリースで再実行するのに十分なコストがかかる。
関連論文リスト
- Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels [0.0]
LLM-as-a-judgeパネルは複数のモデルからの投票を集計する。
私たちは、その信頼性が独立投票の理想にどの程度劣るかを定量化します。
論文 参考訳(メタデータ) (2026-05-28T11:48:17Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth [4.9467757325435775]
大規模言語モデル(LLM)をオープンなタスクで評価することは、LLM-as-a-judgeパラダイムを通じてますます行われています。
すべての裁判官を平等に扱うことは、偏見のあるリーダーボードを生み出し、不確実性の推定を誤解させる可能性がある。
そこで本研究では,Bradley-Terry-Luceモデルを拡張し,判定固有の識別パラメータを導入することにより,判定対応のランキングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T15:01:28Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。