論文の概要: Adaptive Decoding via Latent Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.09661v1
- Date: Thu, 14 Nov 2024 18:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:25.819297
- Title: Adaptive Decoding via Latent Preference Optimization
- Title(参考訳): 遅延選好最適化による適応復号化
- Authors: Shehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin,
- Abstract要約: モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
- 参考スコア(独自算出の注目度): 55.70602730588745
- License:
- Abstract: During language model decoding, it is known that using higher temperature sampling gives more creative responses, while lower temperatures are more factually accurate. However, such models are commonly applied to general instruction following, which involves both creative and fact seeking tasks, using a single fixed temperature across all examples and tokens. In this work, we introduce Adaptive Decoding, a layer added to the model to select the sampling temperature dynamically at inference time, at either the token or example level, in order to optimize performance. To learn its parameters we introduce Latent Preference Optimization (LPO) a general approach to train discrete latent variables such as choices of temperature. Our method outperforms all fixed decoding temperatures across a range of tasks that require different temperatures, including UltraFeedback, Creative Story Writing, and GSM8K.
- Abstract(参考訳): 言語モデルデコーディングでは、より高い温度サンプリングを使用することでより創造的な応答が得られ、低い温度はより現実的に正確であることが知られている。
しかし、そのようなモデルは、すべての例とトークンをまたいだ単一の固定温度を用いて、創造的なタスクと事実を求めるタスクの両方を含む一般的な命令に一般的に適用される。
本研究では,モデルに付加された層であるAdaptive Decodingを導入し,トークンやサンプルのいずれにおいても,サンプリング温度を動的に選択し,性能を最適化する。
パラメータを学習するために、温度選択などの離散遅延変数を学習するための一般的なアプローチとして、Latent Preference Optimization (LPO)を導入する。
提案手法は,UltraFeedback,Creative Story Writing,GSM8Kなど,さまざまな温度を必要とするタスクにまたがる固定復号化温度よりも優れる。
関連論文リスト
- Temperature-Centric Investigation of Speculative Decoding with Knowledge Distillation [76.5894260737116]
本稿では,復号化温度が投機的復号化効果に及ぼす影響を考察する。
我々はまず、高温での復号化の課題を強調し、一貫した温度設定でKDを実証することが治療である可能性を実証した。
これらの知見に基づいて,特に高温環境での投機的復号化の高速化を図った。
論文 参考訳(メタデータ) (2024-10-14T04:17:45Z) - EDT: Improving Large Language Models' Generation by Entropy-based Dynamic Temperature Sampling [31.663507929452564]
生成品質と多様性のバランスをとるために,効率的なエントロピーに基づく動的温度サンプリング法を提案する。
我々の実験によると、EDTは様々なタスクで既存の戦略を著しく上回ります。
論文 参考訳(メタデータ) (2024-03-21T16:41:12Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T19:25:56Z) - Long Horizon Temperature Scaling [90.03310732189543]
LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T18:59:32Z) - Fine-tune your Classifier: Finding Correlations With Temperature [2.071516130824992]
我々は、データセットを表現に計算された統計の集合として記述することで、分類タスクに対する温度の影響を分析する。
これらの抽出された統計値と観測された最適温度との相関について検討した。
論文 参考訳(メタデータ) (2022-10-18T09:48:46Z) - Posterior Temperature Optimization in Variational Inference [69.50862982117127]
ディープラーニングの文脈では、コールドフォレストは実践上より優れていることが報告されている。
本研究は,まず,平均場変動推定において,完全に温められた後部のためにELBOを導出する。
次にベイズ最適化を用いて最適後温度を自動的に求める。
論文 参考訳(メタデータ) (2021-06-11T13:01:28Z) - Contextual Temperature for Language Modeling [14.485125883455975]
本研究では,各語彙に対する最適温度軌跡を文脈上で学習する文脈温度を提案する。
実験の結果,提案手法は最先端の言語モデルを大幅に改善した。
詳細な分析は、学習した温度スケジュールの振る舞いが語彙によって劇的に変化することを示している。
論文 参考訳(メタデータ) (2020-12-25T13:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。