論文の概要: CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks
- arxiv url: http://arxiv.org/abs/2606.03650v2
- Date: Thu, 04 Jun 2026 10:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.194336
- Title: CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks
- Title(参考訳): CoEval: ラベル付きデータや信頼できるベンチマークのないカスタムタスクのための言語モデルランキング
- Authors: Alexander Apartsin, Yehudit Aperstein,
- Abstract要約: アンサンブル自己評価を通じて信頼性の高いタスク固有信号を提供するオープンフレームワークであるCoEvalを提案する。
モデルのプールは教師、学生、裁判官の3つの役割すべてを通して回転し、新鮮な汚染のないベンチマークを生成する。
- 参考スコア(独自算出の注目度): 47.027290803102666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting a pretrained language model, or evaluating a fine-tuned one, for a specific application is a high-value decision, yet the public benchmarks used to make it are poorly suited: a generic benchmark need not reflect a particular sub-domain or sub-task, and its scores are suspect when its items have leaked into pretraining and are recalled rather than solved. We present CoEval, an open framework that supplies a trustworthy, task-specific signal through ensemble self-evaluation: from a task or domain description, a pool of models rotates through all three roles, teacher, student, and judge, to generate a fresh, contamination-free benchmark, answer it, and score one another, with no human labels or raters. Because every model also answers as a student, the responses are the data that weight each question by its discriminative power and each judge by its consensus with the panel. Where ground truth exists, CoEval recovers the true ranking and tracks objective correctness at \r{ho}=0.86, and the weighting recovers the gold ranking of thirteen models at Spearman 0.95. Reliability comes from panel composition, not size: this label-free weighting zeroes out broken judges and down-weights saturated questions, so neither distorts the ranking. Generated items show zero verbatim overlap with five public benchmarks, the panel cancels verbosity bias and precludes same-family self-preference, and rankings are domain-specific: three different models top four de-novo domains, so a generic leaderboard misdirects most practitioners. The same pipeline reruns on each model release, giving any team a contamination-free leaderboard for its application.
- Abstract(参考訳): 事前訓練された言語モデルを選択するか、特定のアプリケーションに対して微調整された言語を評価することは、高価値な決定であるが、それを行うために使用される公開ベンチマークは不適当である: ジェネリックベンチマークは特定のサブドメインやサブタスクを反映する必要がなく、そのスコアは、そのアイテムが事前訓練に漏れて、解決されるよりも、リコールされる可能性がある。
タスクやドメインの記述から、モデルのプールは教師、学生、および裁判官の3つの役割すべてを通して回転し、新鮮な汚染のないベンチマークを生成し、それを回答し、人間のラベルやレーダなしで互いに得点する。
すべてのモデルは学生として答えるので、反応は各質問を識別力で重み付けし、各審査員がパネルと合意するデータである。
地上の真実が存在するところでは、CoEvalは真のランキングを回復し、目的の正しさを \r{ho}=0.86 で追跡し、重み付けはスピアマン 0.95 で13モデルのゴールドランキングを回復する。
このラベルなしの重み付けは、壊れた裁判官や下級判事が飽和した質問をゼロにするので、どちらもランクを歪めない。
生成された項目は5つの公開ベンチマークとゼロの動詞の重複を示し、パネルは冗長性バイアスをキャンセルし、同じ家族の自己選好を妨げ、ランク付けはドメイン固有である。
同じパイプラインが各モデルリリースで再実行され、どのチームでもアプリケーション用の汚染のないリーダボードが提供される。
関連論文リスト
- Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels [0.0]
LLM-as-a-judgeパネルは複数のモデルからの投票を集計する。
私たちは、その信頼性が独立投票の理想にどの程度劣るかを定量化します。
論文 参考訳(メタデータ) (2026-05-28T11:48:17Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth [4.9467757325435775]
大規模言語モデル(LLM)をオープンなタスクで評価することは、LLM-as-a-judgeパラダイムを通じてますます行われています。
すべての裁判官を平等に扱うことは、偏見のあるリーダーボードを生み出し、不確実性の推定を誤解させる可能性がある。
そこで本研究では,Bradley-Terry-Luceモデルを拡張し,判定固有の識別パラメータを導入することにより,判定対応のランキングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T15:01:28Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。