論文の概要: Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models
- arxiv url: http://arxiv.org/abs/2101.06829v2
- Date: Fri, 19 Feb 2021 18:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:07:27.337726
- Title: Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models
- Title(参考訳): 調和型自然言語理解モデルのための合同エネルギーベースモデルトレーニング
- Authors: Tianxing He, Bryan McCann, Caiming Xiong, Ehsan Hosseini-Asl
- Abstract要約: 自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
- 参考スコア(独自算出の注目度): 61.768082640087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore joint energy-based model (EBM) training during the
finetuning of pretrained text encoders (e.g., Roberta) for natural language
understanding (NLU) tasks. Our experiments show that EBM training can help the
model reach a better calibration that is competitive to strong baselines, with
little or no loss in accuracy. We discuss three variants of energy functions
(namely scalar, hidden, and sharp-hidden) that can be defined on top of a text
encoder, and compare them in experiments. Due to the discreteness of text data,
we adopt noise contrastive estimation (NCE) to train the energy-based model. To
make NCE training more effective, we train an auto-regressive noise model with
the masked language model (MLM) objective.
- Abstract(参考訳): 本研究では、自然言語理解(NLU)タスクのための事前訓練されたテキストエンコーダ(例えば、Roberta)の微調整中の共同エネルギーベースモデル(EBM)トレーニングについて検討する。
実験の結果,ESMトレーニングは,精度を損なうことなく,強力なベースラインと競合するキャリブレーションの精度向上に役立つことがわかった。
テキストエンコーダ上で定義可能な3種類のエネルギー関数(スカラー関数、隠れ関数、シャープ隠れ関数)について検討し、実験で比較する。
テキストデータの離散性のため、エネルギーベースモデルをトレーニングするためにノイズコントラスト推定(NCE)を採用する。
NCEトレーニングをより効果的にするために,マスク付き言語モデル(MLM)を目標とした自動回帰ノイズモデルを訓練する。
関連論文リスト
- Concept Bottleneck Language Models For protein design [33.62561223760279]
概念ボトルネックタンパク質言語モデル(CB-pLM)を紹介する。
CB-pLMは、各ニューロンが解釈可能な概念に対応する層を持つ生成マスク言語モデルである。
CB-pLMを2400万から30億のパラメータに拡張し、これらをトレーニングされた最大の概念ボトルネックモデルとし、生成言語モデリングを初めて実現しました。
論文 参考訳(メタデータ) (2024-11-09T06:46:16Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Residual Energy-Based Models for Text Generation [47.53354656462756]
トークンではなくシーケンスレベルで動作する非正規化エネルギーベースモデル(EBM)について検討する。
まず,事前訓練した局所正規化言語モデルの残差を抽出し,ノイズコントラスト推定を用いて訓練する。
2つの大規模言語モデリングデータセットに対する実験により,残余のEMMは局所正規化ベースラインよりも低いパープレキシティが得られることが示された。
論文 参考訳(メタデータ) (2020-04-22T23:19:55Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。