論文の概要: Imputer: Sequence Modelling via Imputation and Dynamic Programming
- arxiv url: http://arxiv.org/abs/2002.08926v2
- Date: Wed, 22 Apr 2020 17:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:06:39.548792
- Title: Imputer: Sequence Modelling via Imputation and Dynamic Programming
- Title(参考訳): imputer:インプテーションと動的プログラミングによるシーケンスモデリング
- Authors: William Chan, Chitwan Saharia, Geoffrey Hinton, Mohammad Norouzi,
Navdeep Jaitly
- Abstract要約: Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 101.5705527605346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Imputer, a neural sequence model that generates
output sequences iteratively via imputations. The Imputer is an iterative
generative model, requiring only a constant number of generation steps
independent of the number of input or output tokens. The Imputer can be trained
to approximately marginalize over all possible alignments between the input and
output sequences, and all possible generation orders. We present a tractable
dynamic programming training algorithm, which yields a lower bound on the log
marginal likelihood. When applied to end-to-end speech recognition, the Imputer
outperforms prior non-autoregressive models and achieves competitive results to
autoregressive models. On LibriSpeech test-other, the Imputer achieves 11.1
WER, outperforming CTC at 13.0 WER and seq2seq at 12.5 WER.
- Abstract(参考訳): 本稿では,インプットによって繰り返し出力シーケンスを生成するニューラルシーケンスモデルImputerを提案する。
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
インプターは、入力列と出力列の間の全ての可能なアライメント、および全ての可能な生成順序をほぼ限界化するように訓練することができる。
本稿では,ログ周縁確率の上限を低くする,扱いやすい動的プログラミング訓練アルゴリズムを提案する。
エンドツーエンド音声認識に適用すると、Imputerは従来の非自己回帰モデルよりも優れ、自己回帰モデルに対する競合的な結果が得られる。
LibriSpeechの他のテストでは、Imputerは11.1 WERを達成し、CTCは13.0 WER、Seq2seqは12.5 WERを上回った。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:15:22Z) - Align-Refine: Non-Autoregressive Speech Recognition via Iterative
Realignment [18.487842656780728]
非自己回帰モデルの出力を編集することで、補充モデルと反復精製モデルがこのギャップの一部を構成する。
本稿では、出力シーケンス空間ではなく、遅延アライメント上で補正が行われる反復再配置を提案する。
論文 参考訳(メタデータ) (2020-10-24T09:35:37Z) - SEAL: Segment-wise Extractive-Abstractive Long-form Text Summarization [39.85688193525843]
入力シーケンス長を最大10万トークン,出力シーケンス長を最大768トークンとするシーケンス・ツー・シーケンスについて検討した。
入力スニペットを動的に抽出・選択し,各出力セグメントに疎通する,新しいエンコーダ・デコーダを特徴とするトランスフォーマーベースモデルSEALを提案する。
SEALモデルは、既存の長文要約タスクの最先端結果を実現し、私たちが導入した新しいデータセット/タスクであるSearch2Wikiにおいて、はるかに長い入力テキストで強力なベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-18T00:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。