論文の概要: Language Models not just for Pre-training: Fast Online Neural Noisy
Channel Modeling
- arxiv url: http://arxiv.org/abs/2011.07164v1
- Date: Fri, 13 Nov 2020 23:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:01:03.859063
- Title: Language Models not just for Pre-training: Fast Online Neural Noisy
Channel Modeling
- Title(参考訳): 事前学習だけの言語モデルではない:高速なオンライン神経雑音チャネルモデリング
- Authors: Shruti Bhosale, Kyra Yee, Sergey Edunov, Michael Auli
- Abstract要約: 本稿では,ノイズチャネルアプローチによる推定を,強いアンサンブルの速さで行うための効率的な近似法を提案する。
また,WMTルーマニア語-英語翻訳における新たな手法の達成により,ノイズチャネルアプローチは,事前学習結果よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 35.43382144290393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training models on vast quantities of unlabeled data has emerged as an
effective approach to improving accuracy on many NLP tasks. On the other hand,
traditional machine translation has a long history of leveraging unlabeled data
through noisy channel modeling. The same idea has recently been shown to
achieve strong improvements for neural machine translation. Unfortunately,
na\"{i}ve noisy channel modeling with modern sequence to sequence models is up
to an order of magnitude slower than alternatives. We address this issue by
introducing efficient approximations to make inference with the noisy channel
approach as fast as strong ensembles while increasing accuracy. We also show
that the noisy channel approach can outperform strong pre-training results by
achieving a new state of the art on WMT Romanian-English translation.
- Abstract(参考訳): 大量のラベルのないデータの事前学習モデルは、多くのNLPタスクの精度向上に有効なアプローチとして現れている。
一方で、従来の機械翻訳は、ノイズの多いチャネルモデリングを通じてラベルのないデータを活用する長い歴史がある。
同じ考えが最近示され、ニューラルマシン翻訳の強力な改善が達成された。
残念なことに、現代のシーケンスからシーケンスモデルへのノイズの多いチャネルモデリングは、選択肢よりも桁違い遅い。
本稿では,ノイズチャネルアプローチによる推定を,精度を高めつつ,高速に行うための効率的な近似手法を導入することで,この問題に対処した。
また,WMTルーマニア語-英語翻訳における新たな手法の達成により,ノイズチャネルアプローチは,事前学習結果よりも優れていることを示す。
関連論文リスト
- Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training [54.581599828392854]
大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。
トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。
一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。
論文 参考訳(メタデータ) (2024-06-25T09:25:39Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - Noisy Channel Language Model Prompting for Few-Shot Text Classification [87.23056864536613]
数ショットのテキスト分類において,言語モデルに対してノイズの多いチャネルアプローチを導入する。
入力されたラベルの確率を計算する代わりに、チャネルモデルはラベルが与えられた入力の条件確率を計算する。
我々は最近提案された数発の学習手法にチャネルモデルを使用し、言語モデルパラメータの更新は、あるいは、非常に限られている。
論文 参考訳(メタデータ) (2021-08-09T15:06:26Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。