論文の概要: Provable Joint Decontamination for Benchmarking Multiple Large Language Models
- arxiv url: http://arxiv.org/abs/2605.21543v1
- Date: Wed, 20 May 2026 09:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.463141
- Title: Provable Joint Decontamination for Benchmarking Multiple Large Language Models
- Title(参考訳): 複数の大規模言語モデルのベンチマークのための確率的関節除染法
- Authors: Zhenlong Liu, Hao Zeng, Hongxin Wei,
- Abstract要約: ベンチマーク除染を共同選択問題として定式化し,JECS(Joint Envelope Conformal Selection)を提案する。
JECS はモデルごとの同値 p を計算し、それを最大値で集約し、最大 p 個の null 分布の保守的エンベロープを再構成する。
様々なモデルとベンチマーク実験により、JECSは目標のGCR制御を一貫して維持しつつ、最大pベースラインよりも高い出力を達成することが示された。
- 参考スコア(独自算出の注目度): 19.929035827959822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmark data contamination has become a central challenge in LLM evaluation: when evaluation examples appear in the training data of one or more audited models, reported performance can be inflated and cross-model comparisons become unreliable. A broad line of training-data detection work designs scores to quantify how strongly a model memorizes a given data point, but these score-based methods lack theoretical guarantees. Recent conformal approaches provide provable false-identification control for a single model; however, applying them separately to each model can produce model-specific benchmarks, undermining fair comparison across models. In this work, we formalize multi-model benchmark decontamination as a joint selection problem and propose Joint Envelope Conformal Selection (JECS), a conformal procedure that enables global contamination rate (GCR) control under stated assumptions. Specifically, JECS computes per-model conformal p-values, aggregates them by the per-item maximum, and reconstructs a conservative envelope of the max-p null distribution from right-tail observations above a data-driven threshold. By applying the adaptive Benjamini-Hochberg (BH) procedure to the envelope-rescaled values, we select a benchmark with provable GCR control. Extensive experiments across various models and benchmarks demonstrate that JECS achieves higher power than the max-p baseline while consistently maintaining the target GCR control.
- Abstract(参考訳): 1つ以上の監査済みモデルのトレーニングデータに評価例が現れると、報告された性能が膨張し、モデル間比較が信頼性に欠ける。
トレーニングデータ検出作業設計の幅広い行は、モデルが与えられたデータポイントをどれだけ強く記憶するかを定量化するが、これらのスコアベースの手法は理論的保証を欠いている。
近年のコンフォメーションアプローチは、1つのモデルに対して証明可能な偽識別制御を提供するが、各モデルに個別に適用することでモデル固有のベンチマークを作成でき、モデル間での公正な比較を損なう。
本研究では,マルチモデルベンチマークの汚染を共同選択問題として定式化し,提案した前提の下でのグローバルな汚染率(GCR)制御を可能にするコンフォメーション手順であるJECSを提案する。
特に、JECSはモデルごとの共形p-値を計算し、それを最大で集約し、データ駆動しきい値の上の右尾観測から最大p-null分布の保守的エンベロープを再構築する。
適応的なBenjamini-Hochberg(BH)法を封筒再スケールした値に適用することにより、証明可能なGCR制御を持つベンチマークを選択する。
様々なモデルやベンチマークにわたる大規模な実験により、JECSは目標のGCR制御を一貫して維持しつつ、最大pベースラインよりも高い出力を達成することが示された。
関連論文リスト
- Post-Selection Distributional Model Evaluation [31.006941545235396]
選択後分布モデル評価(PS-DME)
PS-DMEは任意のデータ依存モデル選択後に統計的に有効な分布モデル評価のためのフレームワークである。
結果:PS-DMEは,様々な信頼性レベルの候補構成の信頼性比較を可能にする。
論文 参考訳(メタデータ) (2026-03-24T10:51:30Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Score-based Generative Modeling for Conditional Independence Testing [35.0533359302886]
本稿では,精度の高いタイプIエラー制御と強力なテスト能力を実現するための,スコアベース生成モデルによる新しいCIテスト手法を提案する。
スコアベース生成モデルによりモデル化された条件分布の誤差境界を理論的に確立し,CIテストの有効性を検証した。
論文 参考訳(メタデータ) (2025-05-29T10:10:46Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。