論文の概要: When Mean CE Fails: Median CE Can Better Track Language Model Quality
- arxiv url: http://arxiv.org/abs/2605.24667v1
- Date: Sat, 23 May 2026 17:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.304524
- Title: When Mean CE Fails: Median CE Can Better Track Language Model Quality
- Title(参考訳): CEが失敗したとき:Median CEは言語モデルの品質を追跡できる
- Authors: Hao Guo, Simon Dennis, Rivaan Patil, Kevin Shabahang,
- Abstract要約: 平均的クロスエントロピーは言語モデルの標準的な検証基準であるが、トレーニング中にモデルの品質を追跡することができない。
その結果,CE は初回学習以降に大きく上昇するが,そのピーク付近ではファクトリコール精度が保留されていることがわかった。
どちらの場合も、タスク評価基準は尾よりもバルクに敏感に見える。
- 参考スコア(独自算出の注目度): 1.6214121783846343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean cross-entropy is the standard validation metric for language models, but it can fail to track model quality during training. We examine this in two common scenarios. First, in Qwen2.5-1.5B SFT on synthetic fact-learning, we find that mean CE rises substantially after the initial learning phase while held-out fact-recall accuracy remains near its peak. Second, we find that in top-K distillation on TinyStories, decreasing K improves median CE while worsening mean CE; the Top-5 student attains the highest LLM-judge score and crosses below its teacher on median CE, despite having the worst mean CE. In both cases, median CE correlates much more closely with task performance than does mean CE. Analyzing how bulk and tail percentile CE move during training reveals that training reshapes the empirical per-token CE distribution. In top-K distillation, smaller K yields a distribution with more mass at both extremes, decreasing the median and increasing the mean. In Qwen SFT, the bulk saturates quickly while the tail extends in the latter half of training. In both, the task-evaluation metric appears more sensitive to the bulk than to the tail. Practically, we recommend reporting a small set of percentile CE summaries alongside the mean, and using concordance among them as a tool to keep track of distribution reshaping, as well as a low-cost diagnostic for when mean and median CE disagree on model selection.
- Abstract(参考訳): 平均的クロスエントロピーは言語モデルの標準的な検証基準であるが、トレーニング中にモデルの品質を追跡することができない。
これを2つの一般的なシナリオで検証する。
まず, Qwen2.5-1.5B SFTにおいて, CEがピーク付近にある間, CEは初回学習後に大きく上昇することがわかった。
第2に,TinyStoriesのTop-K蒸留では,平均CEが低下し,CEが低下すると中等度CEが低下し,Top-5学生は中等度CEが低下したにもかかわらず,中等度CEが最上位のLLM-judgeスコアを獲得し,中等度CEで教師の下を横切ることが判明した。
いずれの場合も、中央値CEはCEよりもタスクパフォーマンスとずっと密接に関連している。
トレーニング中のバルクパーセンタイルCEとテールパーセンタイルCEの移動の解析により、トレーニングがCEの分布を実証的に再評価することが明らかとなった。
トップK蒸留では、より小さいKは両方の極端でより質量の大きい分布を産み、中央値の低下と平均値の上昇をもたらす。
Qwen SFTでは、バルクは急速に飽和し、テールはトレーニング後半に伸びる。
どちらの場合も、タスク評価基準は尾よりもバルクに敏感に見える。
提案手法は,平均値に沿う少数のパーセンタイルCEサマリーを報告し,その間の一致性を利用して分布変化の追跡と,平均値と中央値のCEがモデル選択に不一致である場合の低コストな診断を行うことを推奨する。
関連論文リスト
- Temper-Then-Tilt: Principled Unlearning for Generative Models through Tempering and Classifier Guidance [51.532841645285835]
本研究では,タスクを目標分布に対する密度比推定としてフレーミングすることで,大規模生成モデルにおける機械学習について検討する。
左折集合がシャープで集中したデータ分布を表す場合、有限サンプルで忠実に解けないことを示す。
本稿では,基本モデルを凍結し,二段階の推論手法を適用したTemper-Then-Tilt Unlearning(T3-Unlearning)を提案する。
論文 参考訳(メタデータ) (2026-02-10T19:08:40Z) - Biased Teacher, Balanced Student [0.0]
Long-Tailed Knowledge Distillation (LTKD)は、クラス不均衡シナリオに適した新しいフレームワークである。
CIFAR-100-LT、TinyImageNet-LT、ImageNet-LTの実験は、LTKDが既存のKDメソッドより一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-06-23T10:46:44Z) - BCE vs. CE in Deep Feature Learning [33.24161955363104]
深層特徴学習において,バイナリCE (BCE) とクロスエントロピー (CE) を比較した。
また、BCEはクラス内コンパクト性とクラス間特異性を最大化することができる。
BCEは、決定スコアの絶対値を測定し、全サンプルの正/負の判定スコアを均一に高い/低いレベルに調整する。
論文 参考訳(メタデータ) (2025-05-09T06:18:31Z) - CLCE: An Approach to Refining Cross-Entropy and Contrastive Learning for Optimized Learning Fusion [15.106479030601378]
クロスエントロピー損失(CE)はモデルの一般化と安定性を損なう可能性がある。
本稿では,Contrastive Learning と CE を統合した CLCE という新しいアプローチを提案する。
CLCEは12ベンチマークでCEのTop-1精度を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-22T13:45:01Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Mixed Cross Entropy Loss for Neural Machine Translation [12.137734214412301]
クロスエントロピー(Cross Entropy, CE)は、ニューラルネットワーク翻訳訓練における標準的な損失関数である。
いずれのトレーニングアプローチにおいても,CEの代替としてクロスエントロピー損失(混合CE)が提案される。
論文 参考訳(メタデータ) (2021-06-30T08:15:05Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Trade-offs in Top-k Classification Accuracies on Losses for Deep
Learning [0.0]
クロスエントロピー(CE)は、無限のトレーニングデータとモデル複雑さなしでトップk予測を最適化することを保証されていない。
私たちの新しい損失は、基本的にCEが1つのクラスとして時間的トップkクラスをグループ化することで修正されます。
我々の損失は、CEが10より大きい場合に比べて、上位kの精度が良いことが判明した。
論文 参考訳(メタデータ) (2020-07-30T10:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。