論文の概要: Contextual Temperature for Language Modeling
- arxiv url: http://arxiv.org/abs/2012.13575v1
- Date: Fri, 25 Dec 2020 13:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 04:38:57.940153
- Title: Contextual Temperature for Language Modeling
- Title(参考訳): 言語モデリングのための文脈温度
- Authors: Pei-Hsin Wang, Sheng-Iou Hsieh, Shih-Chieh Chang, Yu-Ting Chen, Jia-Yu
Pan, Wei Wei, Da-Chang Juan
- Abstract要約: 本研究では,各語彙に対する最適温度軌跡を文脈上で学習する文脈温度を提案する。
実験の結果,提案手法は最先端の言語モデルを大幅に改善した。
詳細な分析は、学習した温度スケジュールの振る舞いが語彙によって劇的に変化することを示している。
- 参考スコア(独自算出の注目度): 14.485125883455975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature scaling has been widely used as an effective approach to control
the smoothness of a distribution, which helps the model performance in various
tasks. Current practices to apply temperature scaling assume either a fixed, or
a manually-crafted dynamically changing schedule. However, our studies indicate
that the individual optimal trajectory for each class can change with the
context. To this end, we propose contextual temperature, a generalized approach
that learns an optimal temperature trajectory for each vocabulary over the
context. Experimental results confirm that the proposed method significantly
improves state-of-the-art language models, achieving a perplexity of 55.31 and
62.89 on the test set of Penn Treebank and WikiText-2, respectively. In-depth
analyses show that the behaviour of the learned temperature schedules varies
dramatically by vocabulary, and that the optimal schedules help in controlling
the uncertainties. These evidences further justify the need for the proposed
method and its advantages over fixed temperature schedules.
- Abstract(参考訳): 温度のスケーリングは分布の滑らかさを制御する効果的な手法として広く用いられており、様々なタスクにおけるモデルの性能を向上させる。
温度スケーリングを適用する現在のプラクティスは、固定または手作業による動的に変化するスケジュールのいずれかを前提としています。
しかし,本研究では,各クラス毎の最適軌跡がコンテキストによって変化することを示す。
そこで本研究では,文脈上の各語彙の最適な温度軌跡を学習する一般的な手法である文脈温度を提案する。
実験の結果,Penn Treebank と WikiText-2 のテストセットにおいて,55.31 と62.89 の難易度を達成し,最先端言語モデルを大幅に改善することが確認された。
詳細な分析により、学習した温度スケジュールの挙動は語彙によって劇的に変化し、最適なスケジュールは不確実性を制御するのに役立つことが示された。
これらの証拠は、提案手法の必要性と固定温度スケジュールに対する利点をさらに正当化している。
関連論文リスト
- Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Emerging Statistical Machine Learning Techniques for Extreme Temperature
Forecasting in U.S. Cities [0.0]
本稿では,新しい統計機械学習技術を用いた極端温度パターンの包括的解析を行う。
これらの手法を、最も人口の多い5つの米国都市の気候時系列データに適用する。
本研究は, 統計的手法の違いを強調し, 最も効果的なアプローチとして多層パーセプトロンを同定した。
論文 参考訳(メタデータ) (2023-07-26T16:38:32Z) - Long Horizon Temperature Scaling [90.03310732189543]
LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T18:59:32Z) - Improving Generalization of Adapter-Based Cross-lingual Transfer with
Scheduled Unfreezing [107.61357092724624]
言語間移動における微調整タスクアダプタの非凍結アルゴリズムについて検討した。
実験では, 完全微調整に近づき, 最先端のトランスファー性能を達成するために, 凍結を予定しない手法が提案されている。
本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:26:53Z) - Fine-tune your Classifier: Finding Correlations With Temperature [2.071516130824992]
我々は、データセットを表現に計算された統計の集合として記述することで、分類タスクに対する温度の影響を分析する。
これらの抽出された統計値と観測された最適温度との相関について検討した。
論文 参考訳(メタデータ) (2022-10-18T09:48:46Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Adaptive Temperature Scaling for Robust Calibration of Deep Neural
Networks [0.7219077740523682]
本研究では、信頼性スケーリングの課題、特に温度スケーリングを一般化するポストホック手法に焦点を当てる。
ニューラルネットワークのような複雑なデータモデルがたくさん存在すると、パフォーマンスは向上するが、データ量に制限がある場合には失敗する傾向にある。
本研究では,エントロピーに基づく温度スケーリングを提案し,そのエントロピーに応じて予測の信頼性を尺度化する。
論文 参考訳(メタデータ) (2022-07-31T16:20:06Z) - Unsupervised Dense Shape Correspondence using Heat Kernels [50.682560435495034]
本稿では,近年の深層関数マップフレームワークを用いて,形状間の密接な対応を学習するための教師なし手法を提案する。
地平線対応や計算に高価な測地線距離に依存するのではなく、熱核を用いる。
本稿では,部分性,トポロジカルノイズ,接続性の違いなど,様々な課題があるベンチマークに対して,本手法の結果を示す。
論文 参考訳(メタデータ) (2020-10-23T21:54:10Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。