論文の概要: Train-before-Test Harmonizes Language Model Rankings
- arxiv url: http://arxiv.org/abs/2507.05195v2
- Date: Mon, 13 Oct 2025 12:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.942968
- Title: Train-before-Test Harmonizes Language Model Rankings
- Title(参考訳): Train-before-Testが言語モデルランキングを調和
- Authors: Guanhua Zhang, Ricardo Dominguez-Olmedo, Moritz Hardt,
- Abstract要約: 既存の言語モデルベンチマークは、類似のスキルを捉えることを目的としたベンチマークであっても、矛盾するモデルランキングを提供する。
評価の前に、各モデルに同一のベンチマーク固有の微調整を提供することにより、モデルポテンシャルを比較する。
列車前テストで得られたモデルランキングは,全てのベンチマークで顕著に一致していることを示す。
- 参考スコア(独自算出の注目度): 39.02785699830391
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing language model benchmarks provide contradictory model rankings, even for benchmarks that aim to capture similar skills. This dilemma of conflicting rankings hampers model selection, clouds model comparisons, and adds confusion to a growing ecosystem of competing models. In this paper, we take a different perspective on model comparison: instead of relying on out-of-the-box performance via direct evaluation, we compare model potential by providing each model with identical benchmark-specific fine-tuning before evaluation. We call this approach train-before-test. Our primary contribution is a comprehensive empirical evaluation of model potential across 24 benchmarks and 61 models. First, we demonstrate that model potential rankings obtained through train-before-test exhibit remarkable consistency across all benchmarks. Whereas traditional rankings demonstrate little external validity under direct evaluation, they enjoy a significant degree of external validity when applying train-before-test: model potential rankings transfer gracefully from one benchmark to another. Second, train-before-test restores the connection between perplexity and downstream task performance, lost under direct evaluation. Remarkably, even pre-finetuning perplexity of a base model predicts post-finetuning downstream performance, suggesting that ranking consistency reflects inherent model potential rather than fine-tuning artifacts. Finally, train-before-test reduces the model-score matrix to essentially rank one, indicating that model potential is dominated by one latent factor, uncovered by train-before-test. Our work supports the recommendation to make train-before-test a default component of LLM benchmarking.
- Abstract(参考訳): 既存の言語モデルベンチマークは、類似のスキルを捉えることを目的としたベンチマークであっても、矛盾するモデルランキングを提供する。
この対立するランキングのジレンマは、ハッパーモデルの選択、クラウドモデルの比較、競合するモデルのエコシステムに混乱をもたらす。
本稿では,モデル比較に関して異なる視点を採り,直接評価によるアウト・オブ・ザ・ボックスの性能に頼る代わりに,各モデルに同一のベンチマーク固有の微調整を提供することによりモデルポテンシャルを比較する。
私たちはこのアプローチを列車試験と呼ぶ。
我々の主な貢献は、24のベンチマークと61のモデルでモデルポテンシャルを総合的に評価することである。
まず,全ベンチマークにおいて,列車前テストによる潜在的なランク付けが顕著に一致していることを示す。
従来のランキングは、直接評価の下では、外部の妥当性はほとんど示されていないが、電車に事前テストを適用する際には、かなりのレベルの外部の妥当性を享受する:モデルポテンシャルランキングは、あるベンチマークから別のベンチマークへ優雅に転送される。
第2に、列車前テストは、直接評価で失われる複雑度と下流タスク性能の接続を復元する。
注目すべきは、ベースモデルの事前微調整パープレキシティでさえ、微調整後のダウンストリームのパフォーマンスを予測し、ランキングの整合性は微調整アーティファクトではなく、固有のモデルポテンシャルを反映していることを示唆している。
最後に、列車前試験はモデルスコア行列を基本的にランク1に減らし、モデルポテンシャルが1つの潜在因子に支配されていることを示す。
LLMベンチマークのデフォルトコンポーネントとしてTrain-before-testを推奨する作業を支援しています。
関連論文リスト
- RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Prior2Posterior: Model Prior Correction for Long-Tailed Learning [0.41248472494152805]
本稿では,テクティタ後部確率を用いたトレーニングモデルの有効性を正確にモデル化するための新しい手法を提案する。
提案手法は,ロングテール文献から得られた複数のベンチマークデータセットに基づいて,新しい最先端(SOTA)を実現する。
論文 参考訳(メタデータ) (2024-12-21T08:49:02Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification [2.1223532600703385]
本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。
重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価することができる。
この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。
論文 参考訳(メタデータ) (2024-04-23T11:40:52Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z) - Monotonicity in practice of adaptive testing [0.0]
本稿では,最近提案された単調性勾配アルゴリズムを用いて学習した適応テストのためのベイジアンネットワークモデルについて検討する。
手法の質は、チェコ国立数学試験の大規模なデータセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-09-15T10:55:41Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。