論文の概要: Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2508.13144v1
- Date: Mon, 18 Aug 2025 17:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.523503
- Title: Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation
- Title(参考訳): 信号と雑音: 言語モデル評価の不確かさを低減するためのフレームワーク
- Authors: David Heineman, Valentin Hofmann, Ian Magnusson, Yuling Gu, Noah A. Smith, Hannaneh Hajishirzi, Kyle Lo, Jesse Dodge,
- Abstract要約: 現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
- 参考スコア(独自算出の注目度): 103.66549325018741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing large language models is expensive and involves making decisions with small experiments, typically by evaluating on large, multi-task evaluation suites. In this work, we analyze specific properties which make a benchmark more reliable for such decisions, and interventions to design higher-quality evaluation benchmarks. We introduce two key metrics that show differences in current benchmarks: signal, a benchmark's ability to separate better models from worse models, and noise, a benchmark's sensitivity to random variability between training steps. We demonstrate that benchmarks with a better signal-to-noise ratio are more reliable when making decisions at small scale, and those with less noise have lower scaling law prediction error. These results suggest that improving signal or noise will lead to more useful benchmarks, so we introduce three interventions designed to directly affect signal or noise. For example, we propose that switching to a metric that has better signal and noise (e.g., perplexity rather than accuracy) leads to better reliability and improved scaling law error. We also find that filtering noisy subtasks, to improve an aggregate signal-to-noise ratio, leads to more reliable multi-task evaluations. We also find that averaging the output of a model's intermediate checkpoints to reduce noise leads to consistent improvements. We conclude by recommending that those creating new benchmarks, or selecting which existing benchmarks to use, aim for high signal and low noise. We use 30 benchmarks for these experiments, and 375 open-weight language models from 60M to 32B parameters, resulting in a new, publicly available dataset of 900K evaluation benchmark results, totaling 200M instances.
- Abstract(参考訳): 大規模な言語モデルの開発には費用がかかり、小さな実験で意思決定を行う。
本研究では,このような決定に対してベンチマークをより信頼性の高いものにするための特性分析と,高品質な評価ベンチマークの設計への介入について述べる。
信号、より悪いモデルからより良いモデルを切り離すベンチマークの能力、ノイズ、トレーニングステップ間のランダムな変動に対するベンチマークの感度。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合には信頼性が高く、ノイズが少ないベンチマークは法則予測誤差が低いことを示す。
これらの結果から,信号やノイズの改善により,より有用なベンチマークがもたらされることが示唆された。
例えば、信号とノイズ(例えば、精度よりも難易度)がよいメトリックに切り替えると、信頼性が向上し、法則エラーのスケーリングが改善される。
また,信号対雑音比を向上させるため,フィルタノイズのサブタスクがより信頼性の高いマルチタスク評価をもたらすことも見出した。
また、ノイズを低減するためにモデルの中間チェックポイントの出力を平均化すると、一貫した改善がもたらされる。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
これらの実験には30のベンチマークと、60Mから32Bパラメータの375のオープンウェイト言語モデルを使用しました。
関連論文リスト
- Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Negative Pre-aware for Noisy Cross-modal Matching [46.5591267410225]
雑音対応は認識と修正が難しいため,クロスモーダルノイズロバスト学習は難しい課題である。
本稿では,雑音の多い下流タスクに対する大規模視覚言語モデルファインタニングのための,否定的事前認識型クロスモーダルマッチングソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:52:36Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms [3.967483941966979]
限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。
統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
論文 参考訳(メタデータ) (2022-04-20T09:53:59Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。