論文の概要: Long Horizon Temperature Scaling
- arxiv url: http://arxiv.org/abs/2302.03686v1
- Date: Tue, 7 Feb 2023 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:13:04.273079
- Title: Long Horizon Temperature Scaling
- Title(参考訳): 長地平線温度スケーリング
- Authors: Andy Shih, Dorsa Sadigh, Stefano Ermon
- Abstract要約: LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し,温度パラメータを制御可能な単一モデルを生成することを示す。
- 参考スコア(独自算出の注目度): 97.39464776373902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature scaling is a popular technique for tuning the sharpness of a
model distribution. It is used extensively for sampling likely generations and
calibrating model uncertainty, and even features as a controllable parameter to
many large language models in deployment. However, autoregressive models rely
on myopic temperature scaling that greedily optimizes the next token. To
address this, we propose Long Horizon Temperature Scaling (LHTS), a novel
approach for sampling from temperature-scaled joint distributions. LHTS is
compatible with all likelihood-based models, and optimizes for the long-horizon
likelihood of samples. We derive a temperature-dependent LHTS objective, and
show that fine-tuning a model on a range of temperatures produces a single
model capable of generation with a controllable long-horizon temperature
parameter. We experiment with LHTS on image diffusion models and
character/language autoregressive models, demonstrating advantages over myopic
temperature scaling in likelihood and sample quality, and showing improvements
in accuracy on a multiple choice analogy task by $10\%$.
- Abstract(参考訳): 温度スケーリングはモデル分布のシャープネスをチューニングするための一般的な手法である。
潜在的世代をサンプリングし、モデルの不確実性を校正するために広く使用され、デプロイ中の多くの大きな言語モデルに対する制御可能なパラメータとして機能する。
しかし、自己回帰モデルは次のトークンを鮮やかに最適化する心筋温度のスケーリングに依存している。
そこで本研究では, 温度スケールドジョイント分布からサンプリングする新しい手法であるlong horizon temperature scaling (lhts)を提案する。
LHTSは全ての可能性に基づくモデルと互換性があり、サンプルの長期可能性に最適化されている。
温度依存lhtsの目的を導出し, 温度範囲でモデルを微調整すると, 制御可能な長ホリゾン温度パラメータで生成可能な単一モデルが得られることを示した。
画像拡散モデルとキャラクタ/言語自己回帰モデルについてLHTSを用いて実験を行い、ミオピック温度スケーリングの確率とサンプル品質に対する利点を示し、複数選択類似タスクにおける精度を10\%$で向上させた。
関連論文リスト
- Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Deep generative modelling of canonical ensemble with differentiable thermal properties [0.9421843976231371]
標準アンサンブルの温度の異なる変分モデルを提案する。
深部生成モデルを用いて、連続した温度範囲で自由エネルギーを推定し、同時に最小化する。
トレーニングプロセスはデータセットを必要とせず、任意の明示的な密度生成モデルで動作する。
論文 参考訳(メタデータ) (2024-04-29T03:41:49Z) - EDT: Improving Large Language Models' Generation by Entropy-based Dynamic Temperature Sampling [31.663507929452564]
生成品質と多様性のバランスをとるために,効率的なエントロピーに基づく動的温度サンプリング法を提案する。
我々の実験によると、EDTは様々なタスクで既存の戦略を著しく上回ります。
論文 参考訳(メタデータ) (2024-03-21T16:41:12Z) - Temperature dependence of energy transport in the $\mathbb{Z}_3$ chiral clock model [0.0]
本研究では, 1次元$mathbbZ_3$キラルクロックモデルの非可積分状態におけるエネルギー輸送について検討した。
本研究では, 比較的高温のモデルにおける輸送係数を, 空隙のない相と低温の相の両方よりも高い温度で抽出する。
量子臨界スケーリングが観測される温度には到達できないが、我々のアプローチはモデルの輸送特性にアクセスすることができる。
論文 参考訳(メタデータ) (2023-10-31T18:00:30Z) - Capturing Local Temperature Evolution during Additive Manufacturing
through Fourier Neural Operators [0.0]
本稿では, 加法製造過程における局所的な温度変化を捉えたデータ駆動モデルを提案する。
直接エネルギー沈着過程における不連続なガレルキン有限要素法に基づく数値シミュレーションで検証した。
その結果、このモデルはR2$で測定された高忠実度を実現し、トレーニングプロセスに含まれていない測地に対する一般化性を維持した。
論文 参考訳(メタデータ) (2023-07-04T16:17:59Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。