論文の概要: Long Horizon Temperature Scaling
- arxiv url: http://arxiv.org/abs/2302.03686v2
- Date: Fri, 29 Sep 2023 18:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:28:59.264987
- Title: Long Horizon Temperature Scaling
- Title(参考訳): 長地平線温度スケーリング
- Authors: Andy Shih, Dorsa Sadigh, Stefano Ermon
- Abstract要約: LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
- 参考スコア(独自算出の注目度): 90.03310732189543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature scaling is a popular technique for tuning the sharpness of a
model distribution. It is used extensively for sampling likely generations and
calibrating model uncertainty, and even features as a controllable parameter to
many large language models in deployment. However, autoregressive models rely
on myopic temperature scaling that greedily optimizes the next token. To
address this, we propose Long Horizon Temperature Scaling (LHTS), a novel
approach for sampling from temperature-scaled joint distributions. LHTS is
compatible with all likelihood-based models, and optimizes for the long horizon
likelihood of samples. We derive a temperature-dependent LHTS objective, and
show that finetuning a model on a range of temperatures produces a single model
capable of generation with a controllable long horizon temperature parameter.
We experiment with LHTS on image diffusion models and character/language
autoregressive models, demonstrating advantages over myopic temperature scaling
in likelihood and sample quality, and showing improvements in accuracy on a
multiple choice analogy task by $10\%$.
- Abstract(参考訳): 温度スケーリングはモデル分布のシャープネスをチューニングするための一般的な手法である。
潜在的世代をサンプリングし、モデルの不確実性を校正するために広く使用され、デプロイ中の多くの大きな言語モデルに対する制御可能なパラメータとして機能する。
しかし、自己回帰モデルは次のトークンを鮮やかに最適化する心筋温度のスケーリングに依存している。
そこで本研究では, 温度スケールドジョイント分布からサンプリングする新しい手法であるlong horizon temperature scaling (lhts)を提案する。
LHTSは全ての可能性に基づくモデルと互換性があり、サンプルの長い地平線確率を最適化する。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
画像拡散モデルとキャラクタ/言語自己回帰モデルについてLHTSを用いて実験を行い、ミオピック温度スケーリングの確率とサンプル品質に対する利点を示し、複数選択類似タスクにおける精度を10\%$で向上させた。
関連論文リスト
- Temperature dependence of energy transport in the $\mathbb{Z}_3$ chiral
clock model [0.0]
本研究では, 1次元$mathbbZ_3$キラルクロックモデルの非可積分状態におけるエネルギー輸送について検討した。
本研究では, 比較的高温のモデルにおける輸送係数を, 空隙のない相と低温の相の両方よりも高い温度で抽出する。
量子臨界スケーリングが観測される温度には到達できないが、我々のアプローチはモデルの輸送特性にアクセスすることができる。
論文 参考訳(メタデータ) (2023-10-31T18:00:30Z) - Capturing Local Temperature Evolution during Additive Manufacturing
through Fourier Neural Operators [0.0]
本稿では, 加法製造過程における局所的な温度変化を捉えたデータ駆動モデルを提案する。
直接エネルギー沈着過程における不連続なガレルキン有限要素法に基づく数値シミュレーションで検証した。
その結果、このモデルはR2$で測定された高忠実度を実現し、トレーニングプロセスに含まれていない測地に対する一般化性を維持した。
論文 参考訳(メタデータ) (2023-07-04T16:17:59Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Deep Equilibrium Approaches to Diffusion Models [1.4275201654498746]
拡散に基づく生成モデルは高品質な画像を生成するのに極めて効果的である。
これらのモデルは通常、高忠実度画像を生成するために長いサンプリングチェーンを必要とする。
我々は、異なる観点からの拡散モデル、すなわち(深い)平衡(DEQ)固定点モデルについて考察する。
論文 参考訳(メタデータ) (2022-10-23T22:02:19Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - A Practical Second-order Latent Factor Model via Distributed Particle
Swarm Optimization [5.199454801210509]
Hessian-free (HF) 最適化は、LFモデルの目的関数の2次情報を利用するための効率的な方法である。
本研究では,実用的なSLF(PSLF)モデルを提案する。
実HiDSデータセットの実験は、PSLFモデルがデータ表現能力の最先端モデルに対して競争上の優位性を持っていることを示している。
論文 参考訳(メタデータ) (2022-08-12T05:49:08Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Statistical Downscaling of Temperature Distributions from the Synoptic
Scale to the Mesoscale Using Deep Convolutional Neural Networks [0.0]
有望な応用の1つは、低分解能ダイナミックモデルの出力画像を高分解能画像に変換する統計的代理モデルを開発することである。
本研究では,6時間毎に合成温度場をメソスケール温度場にダウンスケールする代理モデルについて検討した。
代理モデルが短時間で実施されれば、高解像度の天気予報ガイダンスや環境緊急警報を低コストで提供する。
論文 参考訳(メタデータ) (2020-07-20T06:24:08Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。