論文の概要: On Sampling-Based Training Criteria for Neural Language Modeling
- arxiv url: http://arxiv.org/abs/2104.10507v1
- Date: Wed, 21 Apr 2021 12:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:34:29.885874
- Title: On Sampling-Based Training Criteria for Neural Language Modeling
- Title(参考訳): ニューラルネットワークモデリングのためのサンプリングベーストレーニング基準について
- Authors: Yingbo Gao, David Thulke, Alexander Gerstenberger, Khoa Viet Tran,
Ralf Schl\"uter, Hermann Ney
- Abstract要約: 我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
- 参考スコア(独自算出の注目度): 97.35284042981675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the vocabulary size of modern word-based language models becomes ever
larger, many sampling-based training criteria are proposed and investigated.
The essence of these sampling methods is that the softmax-related traversal
over the entire vocabulary can be simplified, giving speedups compared to the
baseline. A problem we notice about the current landscape of such sampling
methods is the lack of a systematic comparison and some myths about preferring
one over another. In this work, we consider Monte Carlo sampling, importance
sampling, a novel method we call compensated partial summation, and noise
contrastive estimation. Linking back to the three traditional criteria, namely
mean squared error, binary cross-entropy, and cross-entropy, we derive the
theoretical solutions to the training problems. Contrary to some common belief,
we show that all these sampling methods can perform equally well, as long as we
correct for the intended class posterior probabilities. Experimental results in
language modeling and automatic speech recognition on Switchboard and
LibriSpeech support our claim, with all sampling-based methods showing similar
perplexities and word error rates while giving the expected speedups.
- Abstract(参考訳): 現代の単語ベース言語モデルの語彙サイズがさらに大きくなるにつれて,多くのサンプリングベーストレーニング基準が提案され,検討されている。
これらのサンプリング手法の本質は、語彙全体のソフトマックス関連トラバーサルを単純化し、ベースラインと比較してスピードアップすることができることである。
このようなサンプリング手法の現在の状況に注目する問題は、体系的な比較の欠如と、他の方法よりも好むという神話の欠如である。
本研究では,モンテカルロサンプリング,重要サンプリング,補償部分和と呼ばれる新しい手法,ノイズコントラスト推定について考察する。
従来の3つの基準、すなわち平均二乗誤差、二乗クロスエントロピー、クロスエントロピーにリンクすることで、トレーニング問題の理論的解を導出する。
一般的な信念とは対照的に、これらのサンプリング手法は、意図したクラス後部確率を補正する限り、等しく機能できることが示される。
Switchboard と LibriSpeech における言語モデリングと自動音声認識の実験的結果が我々の主張を裏付けるものである。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis
Distance [6.358196724648596]
展開された方言分類モデルは、トレーニングデータ分布とは異なる異常な入力に遭遇することができる。
アウト・オブ・ディストリビューション検出は、方言分類の文脈においてほとんど注目されていない新しい研究領域である。
本稿では, 分布外サンプルを検出するために, 単純かつ効果的なマハラノビス距離特徴量に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-08-09T11:33:53Z) - Can Diffusion Model Achieve Better Performance in Text Generation?
Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。
トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。
本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文 参考訳(メタデータ) (2023-05-08T05:32:22Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Probing BERT's priors with serial reproduction chains [8.250374560598493]
我々はシリアル再生チェーンを用いてBERTの先行を探索する。
接地構造継手分布の特異かつ一貫した推定器を得ることができる。
得られた先行分布から得られた文の語彙的・統語的統計値と,接地真実コーパス分布の語彙的・統語的統計値を比較する。
論文 参考訳(メタデータ) (2022-02-24T17:42:28Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - $k$-Neighbor Based Curriculum Sampling for Sequence Prediction [22.631763991832862]
言語モデルにおける多段階予測は、トレーニングとテスト時間プロセスの相違により困難である。
教師方針を段階的に変更するカリキュラム学習に基づく手法であるtextitNearest-Neighbor Replacement Samplingを提案する。
本研究では, 2つの言語モデリングベンチマークについて報告し, スケジュールされたサンプリングと併用することで, 性能をさらに向上させる方法を提案する。
論文 参考訳(メタデータ) (2021-01-22T20:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。