Fugu-MT 論文翻訳(概要): Contextual Temperature for Language Modeling

論文の概要: Contextual Temperature for Language Modeling

arxiv url: http://arxiv.org/abs/2012.13575v1
Date: Fri, 25 Dec 2020 13:50:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-25 04:38:57.940153
Title: Contextual Temperature for Language Modeling
Title（参考訳）: 言語モデリングのための文脈温度
Authors: Pei-Hsin Wang, Sheng-Iou Hsieh, Shih-Chieh Chang, Yu-Ting Chen, Jia-Yu Pan, Wei Wei, Da-Chang Juan
Abstract要約: 本研究では,各語彙に対する最適温度軌跡を文脈上で学習する文脈温度を提案する。実験の結果,提案手法は最先端の言語モデルを大幅に改善した。詳細な分析は、学習した温度スケジュールの振る舞いが語彙によって劇的に変化することを示している。
参考スコア（独自算出の注目度）: 14.485125883455975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temperature scaling has been widely used as an effective approach to control the smoothness of a distribution, which helps the model performance in various tasks. Current practices to apply temperature scaling assume either a fixed, or a manually-crafted dynamically changing schedule. However, our studies indicate that the individual optimal trajectory for each class can change with the context. To this end, we propose contextual temperature, a generalized approach that learns an optimal temperature trajectory for each vocabulary over the context. Experimental results confirm that the proposed method significantly improves state-of-the-art language models, achieving a perplexity of 55.31 and 62.89 on the test set of Penn Treebank and WikiText-2, respectively. In-depth analyses show that the behaviour of the learned temperature schedules varies dramatically by vocabulary, and that the optimal schedules help in controlling the uncertainties. These evidences further justify the need for the proposed method and its advantages over fixed temperature schedules.
Abstract（参考訳）: 温度のスケーリングは分布の滑らかさを制御する効果的な手法として広く用いられており、様々なタスクにおけるモデルの性能を向上させる。温度スケーリングを適用する現在のプラクティスは、固定または手作業による動的に変化するスケジュールのいずれかを前提としています。しかし,本研究では,各クラス毎の最適軌跡がコンテキストによって変化することを示す。そこで本研究では,文脈上の各語彙の最適な温度軌跡を学習する一般的な手法である文脈温度を提案する。実験の結果,Penn Treebank と WikiText-2 のテストセットにおいて,55.31 と62.89 の難易度を達成し,最先端言語モデルを大幅に改善することが確認された。詳細な分析により、学習した温度スケジュールの挙動は語彙によって劇的に変化し、最適なスケジュールは不確実性を制御するのに役立つことが示された。これらの証拠は、提案手法の必要性と固定温度スケジュールに対する利点をさらに正当化している。

関連論文リスト

Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文参考訳（メタデータ） (2025-02-07T19:35:25Z)
Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文参考訳（メタデータ） (2024-11-14T18:31:39Z)
Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文参考訳（メタデータ） (2023-12-01T05:38:17Z)
Emerging Statistical Machine Learning Techniques for Extreme Temperature Forecasting in U.S. Cities [0.0]
本稿では,新しい統計機械学習技術を用いた極端温度パターンの包括的解析を行う。これらの手法を、最も人口の多い5つの米国都市の気候時系列データに適用する。本研究は, 統計的手法の違いを強調し, 最も効果的なアプローチとして多層パーセプトロンを同定した。
論文参考訳（メタデータ） (2023-07-26T16:38:32Z)
Long Horizon Temperature Scaling [90.03310732189543]
LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
論文参考訳（メタデータ） (2023-02-07T18:59:32Z)
FUN with Fisher: Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing [60.629222280633606]
微調整タスクアダプタのためのスケジュール付き凍結アルゴリズムについて検討する。実験により, 完全微調整に近づき, 言語間移動性能が向上した。本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-13T11:26:53Z)
Fine-tune your Classifier: Finding Correlations With Temperature [2.071516130824992]
我々は、データセットを表現に計算された統計の集合として記述することで、分類タスクに対する温度の影響を分析する。これらの抽出された統計値と観測された最適温度との相関について検討した。
論文参考訳（メタデータ） (2022-10-18T09:48:46Z)
Extracting or Guessing? Improving Faithfulness of Event Temporal Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。第1の視点は、文脈記述に基づいて真に抽出することである。第2の視点は、適切な不確実性評価を提供することである。
論文参考訳（メタデータ） (2022-10-10T19:53:13Z)
Adaptive Temperature Scaling for Robust Calibration of Deep Neural Networks [0.7219077740523682]
本研究では、信頼性スケーリングの課題、特に温度スケーリングを一般化するポストホック手法に焦点を当てる。ニューラルネットワークのような複雑なデータモデルがたくさん存在すると、パフォーマンスは向上するが、データ量に制限がある場合には失敗する傾向にある。本研究では,エントロピーに基づく温度スケーリングを提案し,そのエントロピーに応じて予測の信頼性を尺度化する。
論文参考訳（メタデータ） (2022-07-31T16:20:06Z)
Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文参考訳（メタデータ） (2020-05-01T02:01:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。