論文の概要: Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy
- arxiv url: http://arxiv.org/abs/2303.07687v1
- Date: Tue, 14 Mar 2023 08:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:57:53.073295
- Title: Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy
- Title(参考訳): ダイナミックアライメントマスクCTC: クロスエントロピーを考慮したマスクCTCの改良
- Authors: Xulong Zhang, Haobin Tang, Jianzong Wang, Ning Cheng, Jian Luo, Jing
Xiao
- Abstract要約: 動的アライメントMask CTCを提案する。
1) 動的プログラミングによるクロスエントロピー損失を最小限に抑えるモノトニックアライメント,(2) 動的レクリエーション, マスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。
WSJ データセットを用いた実験により,AXE の損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。
- 参考スコア(独自算出の注目度): 28.62712217754428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because of predicting all the target tokens in parallel, the
non-autoregressive models greatly improve the decoding efficiency of speech
recognition compared with traditional autoregressive models. In this work, we
present dynamic alignment Mask CTC, introducing two methods: (1) Aligned Cross
Entropy (AXE), finding the monotonic alignment that minimizes the cross-entropy
loss through dynamic programming, (2) Dynamic Rectification, creating new
training samples by replacing some masks with model predicted tokens. The AXE
ignores the absolute position alignment between prediction and ground truth
sentence and focuses on tokens matching in relative order. The dynamic
rectification method makes the model capable of simulating the non-mask but
possible wrong tokens, even if they have high confidence. Our experiments on
WSJ dataset demonstrated that not only AXE loss but also the rectification
method could improve the WER performance of Mask CTC.
- Abstract(参考訳): 全ての目標トークンを並列に予測するため、非自己回帰モデルは従来の自己回帰モデルと比較して音声認識の復号効率を大幅に向上させる。
本稿では,動的アライメントMask CTCを紹介し,(1)アラインド・クロス・エントロピー(AXE),(2)動的プログラミングによるクロス・エントロピー損失を最小限に抑えるモノトニックアライメント,(2)動的レクリエーション,(2)いくつかのマスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。
AXEは、予測と接地真理文の絶対位置アライメントを無視し、相対順序で一致するトークンに焦点を当てる。
動的修正法は、たとえ高い信頼性を持つとしても、非マスクをシミュレートできるが、間違ったトークンが可能である。
WSJ データセットを用いた実験により,AXE 損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文 参考訳(メタデータ) (2022-11-16T18:59:48Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。