論文の概要: Benchmarks Are Not That Out of Distribution: Word Overlap Predicts Performance
- arxiv url: http://arxiv.org/abs/2602.10657v1
- Date: Wed, 11 Feb 2026 09:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.610069
- Title: Benchmarks Are Not That Out of Distribution: Word Overlap Predicts Performance
- Title(参考訳): ベンチマークは分散していない:Word Overlapはパフォーマンスを予測する
- Authors: Woojin Chung, Jeonghoon Kim,
- Abstract要約: 本研究では,事前学習コーパスと評価データセット間の統計的パターンの重複度によってベンチマーク性能が向上するかどうかを検討する。
本結果は,単語レベルのユニグラムのクロスエントロピーとベンチマーク性能の強い逆関係を示す。
- 参考スコア(独自算出の注目度): 10.990131879961261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding what constitutes high-quality pre-training data remains a central question in language model training. In this work, we investigate whether benchmark performance is primarily driven by the degree of statistical pattern overlap between pre-training corpora and evaluation datasets. We measure this overlap using word-level unigram cross-entropy and word frequency statistics, and perform controlled experiments across $10$ zero-shot benchmarks, $4$ pre-training datasets spanning $8.5\mathrm{B}$ to $60\mathrm{B}$ tokens, and model sizes ranging from $400\mathrm{M}$ to $3\mathrm{B}$ parameters. Our results demonstrate a robust inverse relationship between word-level unigram cross-entropy and benchmark performance, suggesting that widely used benchmarks are strongly influenced by word overlap between training and evaluation data. Thus, larger pre-training subsets with similar word-level unigram cross-entropy yield improved downstream results, indicating that word frequency statistics play an additional role in shaping benchmark scores. Taken together, these results suggest that many standard benchmarks are only weakly out-of-distribution relative to pre-training corpora, so that simple word-overlap statistics predict benchmark performance.
- Abstract(参考訳): 高品質な事前学習データを構成するものを理解することは、言語モデルのトレーニングにおいて依然として中心的な問題である。
本研究では,事前学習コーパスと評価データセット間の統計的パターンの重複度によってベンチマーク性能が左右されるかどうかを検討する。
単語レベルのユニグラムクロスエントロピーと単語頻度統計を用いてこの重なりを計測し、ゼロショットベンチマーク10ドル、8.5\mathrm{B}$から60\mathrm{B}$トークンの事前トレーニングデータセット4ドル、400\mathrm{M}$から3\mathrm{B}$パラメータのモデルサイズで制御実験を行う。
本研究は,単語レベルのユニグラムのクロスエントロピーとベンチマーク性能の強い逆関係を示し,広く使用されているベンチマークは,トレーニングと評価データ間の単語重なりの影響を強く受けていることを示唆する。
このように、単語レベルのクロスエントロピーを持つより大きな事前学習サブセットは、ダウンストリーム結果を改善し、単語頻度統計がベンチマークスコアの形成に付加的な役割を果たすことを示す。
これらの結果から,多くの標準ベンチマークは事前学習コーパスに比べて分布が弱いことが示唆され,単純な単語オーバーラップ統計によるベンチマーク性能の予測が可能となった。
関連論文リスト
- Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。
本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文 参考訳(メタデータ) (2025-06-09T11:50:41Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。
完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。
既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文 参考訳(メタデータ) (2025-04-14T08:43:00Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Layer or Representation Space: What makes BERT-based Evaluation Metrics
Robust? [29.859455320349866]
本稿では,テキスト生成において最もポピュラーな埋め込みベースの指標であるBERTScoreのロバスト性について検討する。
a) 入力ノイズや未知のトークンの量が増加すると, 標準ベンチマークにおける人体評価との相関が最も高い埋め込みベースのメトリクスが, 最小の相関を持つことを示す。
論文 参考訳(メタデータ) (2022-09-06T09:10:54Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。