論文の概要: Contextual Temperature for Language Modeling
- arxiv url: http://arxiv.org/abs/2012.13575v1
- Date: Fri, 25 Dec 2020 13:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 04:38:57.940153
- Title: Contextual Temperature for Language Modeling
- Title(参考訳): 言語モデリングのための文脈温度
- Authors: Pei-Hsin Wang, Sheng-Iou Hsieh, Shih-Chieh Chang, Yu-Ting Chen, Jia-Yu
Pan, Wei Wei, Da-Chang Juan
- Abstract要約: 本研究では,各語彙に対する最適温度軌跡を文脈上で学習する文脈温度を提案する。
実験の結果,提案手法は最先端の言語モデルを大幅に改善した。
詳細な分析は、学習した温度スケジュールの振る舞いが語彙によって劇的に変化することを示している。
- 参考スコア(独自算出の注目度): 14.485125883455975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature scaling has been widely used as an effective approach to control
the smoothness of a distribution, which helps the model performance in various
tasks. Current practices to apply temperature scaling assume either a fixed, or
a manually-crafted dynamically changing schedule. However, our studies indicate
that the individual optimal trajectory for each class can change with the
context. To this end, we propose contextual temperature, a generalized approach
that learns an optimal temperature trajectory for each vocabulary over the
context. Experimental results confirm that the proposed method significantly
improves state-of-the-art language models, achieving a perplexity of 55.31 and
62.89 on the test set of Penn Treebank and WikiText-2, respectively. In-depth
analyses show that the behaviour of the learned temperature schedules varies
dramatically by vocabulary, and that the optimal schedules help in controlling
the uncertainties. These evidences further justify the need for the proposed
method and its advantages over fixed temperature schedules.
- Abstract(参考訳): 温度のスケーリングは分布の滑らかさを制御する効果的な手法として広く用いられており、様々なタスクにおけるモデルの性能を向上させる。
温度スケーリングを適用する現在のプラクティスは、固定または手作業による動的に変化するスケジュールのいずれかを前提としています。
しかし,本研究では,各クラス毎の最適軌跡がコンテキストによって変化することを示す。
そこで本研究では,文脈上の各語彙の最適な温度軌跡を学習する一般的な手法である文脈温度を提案する。
実験の結果,Penn Treebank と WikiText-2 のテストセットにおいて,55.31 と62.89 の難易度を達成し,最先端言語モデルを大幅に改善することが確認された。
詳細な分析により、学習した温度スケジュールの挙動は語彙によって劇的に変化し、最適なスケジュールは不確実性を制御するのに役立つことが示された。
これらの証拠は、提案手法の必要性と固定温度スケジュールに対する利点をさらに正当化している。
関連論文リスト
- Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Emerging Statistical Machine Learning Techniques for Extreme Temperature
Forecasting in U.S. Cities [0.0]
本稿では,新しい統計機械学習技術を用いた極端温度パターンの包括的解析を行う。
これらの手法を、最も人口の多い5つの米国都市の気候時系列データに適用する。
本研究は, 統計的手法の違いを強調し, 最も効果的なアプローチとして多層パーセプトロンを同定した。
論文 参考訳(メタデータ) (2023-07-26T16:38:32Z) - Long Horizon Temperature Scaling [90.03310732189543]
LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T18:59:32Z) - FUN with Fisher: Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing [60.629222280633606]
微調整タスクアダプタのためのスケジュール付き凍結アルゴリズムについて検討する。
実験により, 完全微調整に近づき, 言語間移動性能が向上した。
本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:26:53Z) - Fine-tune your Classifier: Finding Correlations With Temperature [2.071516130824992]
我々は、データセットを表現に計算された統計の集合として記述することで、分類タスクに対する温度の影響を分析する。
これらの抽出された統計値と観測された最適温度との相関について検討した。
論文 参考訳(メタデータ) (2022-10-18T09:48:46Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Adaptive Temperature Scaling for Robust Calibration of Deep Neural
Networks [0.7219077740523682]
本研究では、信頼性スケーリングの課題、特に温度スケーリングを一般化するポストホック手法に焦点を当てる。
ニューラルネットワークのような複雑なデータモデルがたくさん存在すると、パフォーマンスは向上するが、データ量に制限がある場合には失敗する傾向にある。
本研究では,エントロピーに基づく温度スケーリングを提案し,そのエントロピーに応じて予測の信頼性を尺度化する。
論文 参考訳(メタデータ) (2022-07-31T16:20:06Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。