論文の概要: Measuring all the noises of LLM Evals
- arxiv url: http://arxiv.org/abs/2512.21326v1
- Date: Wed, 24 Dec 2025 18:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.848895
- Title: Measuring all the noises of LLM Evals
- Title(参考訳): LLM方程式のすべてのノイズの測定
- Authors: Sida Wang,
- Abstract要約: 本研究では, 与えられた質問に対する異なる回答から発生する予測ノイズ, サンプリングされた質問から得られるデータノイズ, および全分散の法則に従って合成された総雑音の3種類のノイズを定義し, 測定する。
本稿では,LLMのすべてのペアにペア解析を適用し,数百万の質問レベル予測に基づいて,すべてのノイズ成分を計測する全ペアペアペア手法を提案する。
- 参考スコア(独自算出の注目度): 3.2452410034214303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Separating signal from noise is central to experimental science. Applying well-established statistical method effectively to LLM evals requires consideration of their unique noise characteristics. We clearly define and measure three types of noise: prediction noise from generating different answers on a given question, data noise from sampling questions, and their combined total noise following the law of total variance. To emphasize relative comparisons and gain statistical power, we propose the all-pairs paired method, which applies the paired analysis to all pairs of LLMs and measures all the noise components based on millions of question-level predictions across many evals and settings. These measurements revealed clear patterns. First, each eval exhibits a characteristic and highly predictable total noise level across all model pairs. Second, paired prediction noise typically exceeds paired data noise, which means reducing prediction noise by averaging can significantly increase statistical power. These findings enable practitioners to assess significance without custom testing and to detect much smaller effects in controlled experiments.
- Abstract(参考訳): ノイズからの信号の分離は実験科学の中心である。
LLM方程式に精度の高い統計手法を効果的に適用するには、その独特のノイズ特性を考慮する必要がある。
本研究では, 与えられた質問に対する異なる回答から発生する予測ノイズ, サンプリングされた質問から得られるデータノイズ, および全分散の法則に従うそれらの合計ノイズの3種類のノイズを明確に定義し, 測定する。
相対比較を重視し,統計的パワーを得るために,LLMの全てのペアにペア解析を適用し,多数のevalや設定にまたがる数百万の質問レベル予測に基づいて,すべてのノイズ成分を測定する全ペアペアペア手法を提案する。
これらの測定により明らかなパターンが明らかになった。
まず、各evalは、すべてのモデルペアに対して特徴的で予測可能なトータルノイズレベルを示す。
第二に、ペア予測ノイズは一般的にペアデータノイズを超えるため、平均化による予測ノイズの低減は統計的パワーを著しく向上させることができる。
これらの知見により、実践者はカスタムテストなしで重要度を評価し、制御された実験においてはるかに小さな効果を検出することができる。
関連論文リスト
- Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Label noise detection under the Noise at Random model with ensemble
filters [5.994719700262245]
本研究では、2つの異なる雑音モデルの下でのアンサンブルノイズ検出の性能について検討する。
データセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2021-12-02T21:49:41Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。