論文の概要: The Well-Tempered Classifier: Some Elementary Properties of Temperature Scaling
- arxiv url: http://arxiv.org/abs/2602.14862v1
- Date: Mon, 16 Feb 2026 15:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.493044
- Title: The Well-Tempered Classifier: Some Elementary Properties of Temperature Scaling
- Title(参考訳): 温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度・温度
- Authors: Pierre-Alexandre Mattei, Bruno Loureiro,
- Abstract要約: 温度上昇はモデル内の不確かさを非常に一般的な意味で増大させることを示す。
LLMにとって、温度上昇は多様性を増すという共通の主張に挑戦する。
温度スケーリングの2つの新しい特徴について紹介する。
- 参考スコア(独自算出の注目度): 22.839278056856433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temperature scaling is a simple method that allows to control the uncertainty of probabilistic models. It is mostly used in two contexts: improving the calibration of classifiers and tuning the stochasticity of large language models (LLMs). In both cases, temperature scaling is the most popular method for the job. Despite its popularity, a rigorous theoretical analysis of the properties of temperature scaling has remained elusive. We investigate here some of these properties. For classification, we show that increasing the temperature increases the uncertainty in the model in a very general sense (and in particular increases its entropy). However, for LLMs, we challenge the common claim that increasing temperature increases diversity. Furthermore, we introduce two new characterisations of temperature scaling. The first one is geometric: the tempered model is shown to be the information projection of the original model onto the set of models with a given entropy. The second characterisation clarifies the role of temperature scaling as a submodel of more general linear scalers such as matrix scaling and Dirichlet calibration: we show that temperature scaling is the only linear scaler that does not change the hard predictions of the model.
- Abstract(参考訳): 温度スケーリングは確率モデルの不確実性を制御できる単純な方法である。
主に2つの文脈で使われており、分類器の校正を改善し、大きな言語モデル(LLM)の確率性を調整する。
どちらの場合も、温度のスケーリングが仕事の最も一般的な方法である。
その人気にもかかわらず、温度スケーリングの特性に関する厳密な理論的分析はいまだに解明されていない。
これらの性質のいくつかをここで調べる。
分類において、温度の上昇は、非常に一般的な意味でモデルの不確実性を高める(特にエントロピーを増加させる)。
しかし, LLM の場合, 温度上昇は多様性を増すという共通の主張に異議を唱える。
さらに、温度スケーリングの2つの新しい特徴について紹介する。
1つは幾何学的であり、係留されたモデルは与えられたエントロピーを持つモデルの集合への原モデルの情報射影であることが示される。
2つ目の特徴化は、行列スケーリングやディリクレキャリブレーションのようなより一般的な線形スケーラのサブモデルとしての温度スケーリングの役割を明らかにする。
関連論文リスト
- On the Entropy Calibration of Language Models [52.47557449370603]
本研究では,言語モデルのエントロピーが人間のテキスト上でのログ損失と一致しているかを問うエントロピーキャリブレーションの問題について検討する。
観測されたスケーリングの挙動は、単純化された設定によって予測されるものと類似していることがわかった。
将来的なテキストのエントロピーを予測するために,モデルに適合するブラックボックスへのアクセスを前提にすれば,それが可能であることが証明できる。
論文 参考訳(メタデータ) (2025-11-15T00:33:03Z) - Machine Learning for Electron-Scale Turbulence Modeling in W7-X [35.18016233072556]
本稿では,Wendelstein 7-Xステラレータにおける乱流の機械学習による低減モデルを提案する。
各モデルは、ETG熱流束を3つのプラズマパラメータの関数として予測する。
本モデルでは,従来の参照シミュレーションに匹敵する頑健な性能と予測精度を示す。
論文 参考訳(メタデータ) (2025-11-06T17:24:37Z) - On the Role of Temperature Sampling in Test-Time Scaling [5.758728541863352]
大規模なKでは、さらなるスケーリングは利得を得られず、トレースの数に関係なく、ある種の難しい質問は未解決のままである。
Qwen3と5つの代表的な推論ベンチマークで評価された温度スケーリングは、単一温度のTSよりも7.3ポイント高い。
温度スケーリングはまた、ベースモデルが強化学習(RL)でトレーニングされたモデルに匹敵するパフォーマンスに到達することを可能にする。
論文 参考訳(メタデータ) (2025-10-02T23:09:56Z) - Extended string-net models with all anyons at finite temperature [0.0]
元の文字列ネットモデルでは、電荷励起の記述が問題となることがある。
励起状態のスペクトル退化を計算し、正確な分割関数を得る。
有限サイズの系では、オーダーは有限温度まで生存し、温度とサイズの間の非自明なスケーリングを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T15:43:19Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Long Horizon Temperature Scaling [90.03310732189543]
LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。