論文の概要: Mutually-Constrained Monotonic Multihead Attention for Online ASR
- arxiv url: http://arxiv.org/abs/2103.14302v1
- Date: Fri, 26 Mar 2021 07:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:35:55.661683
- Title: Mutually-Constrained Monotonic Multihead Attention for Online ASR
- Title(参考訳): オンラインASRのための相互拘束型モノトニックマルチヘッドアテンション
- Authors: Jaeyun Song, Hajin Shim, Eunho Yang
- Abstract要約: モノトニックマルチヘッドアテンション(MMA)は、機械翻訳および自動音声認識タスクにおける最先端のオフライン手法に匹敵するパフォーマンスを示します。
本稿では,ヘッド同期ビームサーチデコーディングなど,推論時間におけるテスト遅延を低減する手法を提案する。
提案手法は,ASRの2つの標準ベンチマークデータセット上で検証し,トレーニング段階から相互に制約された頭部を持つMMAがベースラインよりも優れた性能を提供することを示す。
- 参考スコア(独自算出の注目度): 27.215800308343322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the feature of real-time decoding, Monotonic Multihead Attention
(MMA) shows comparable performance to the state-of-the-art offline methods in
machine translation and automatic speech recognition (ASR) tasks. However, the
latency of MMA is still a major issue in ASR and should be combined with a
technique that can reduce the test latency at inference time, such as
head-synchronous beam search decoding, which forces all non-activated heads to
activate after a small fixed delay from the first head activation. In this
paper, we remove the discrepancy between training and test phases by
considering, in the training of MMA, the interactions across multiple heads
that will occur in the test time. Specifically, we derive the expected
alignments from monotonic attention by considering the boundaries of other
heads and reflect them in the learning process. We validate our proposed method
on the two standard benchmark datasets for ASR and show that our approach, MMA
with the mutually-constrained heads from the training stage, provides better
performance than baselines.
- Abstract(参考訳): リアルタイムデコーディングの機能にもかかわらず、モノトニック・マルチヘッド・アテンション(MMA)は、機械翻訳や自動音声認識(ASR)タスクにおける最先端のオフライン手法と同等のパフォーマンスを示す。
しかし、MMAのレイテンシは依然としてASRの大きな問題であり、ヘッド同期ビームサーチデコーディングのような、最初のヘッドアクティベーションから小さな固定遅延の後、すべての非アクティブヘッドをアクティベートするよう強制する、推論時間におけるテストレイテンシを低減する技術と組み合わせるべきである。
本稿では、MMAのトレーニングにおいて、テスト時間中に発生する複数のヘッド間の相互作用を考慮して、トレーニングとテストフェーズの相違を除去する。
具体的には、他の頭部の境界を考慮し、学習過程に反映することで、単調な注意から期待されるアライメントを導出する。
提案手法は,ASRの2つの標準ベンチマークデータセット上で検証し,トレーニング段階から相互に制約された頭部を持つMMAがベースラインよりも優れた性能を提供することを示す。
関連論文リスト
- Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - ClusT3: Information Invariant Test-Time Training [19.461441044484427]
これらの脆弱性を軽減するため、TTT(Test-time Training)法が開発されている。
マルチスケール特徴写像と離散潜在表現の相互情報に基づく新しい非教師付きTTT手法を提案する。
実験結果から, 様々なテスト時間適応ベンチマークにおいて, 競争力のある分類性能が示された。
論文 参考訳(メタデータ) (2023-10-18T21:43:37Z) - Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation [26.674085603033742]
連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。
本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T16:51:19Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Time-Domain Mapping Based Single-Channel Speech Separation With
Hierarchical Constraint Training [10.883458728718047]
複数話者音声認識には単一チャンネル音声分離が必要である。
時間領域音声分離網(TasNet)に着目した最近の深層学習に基づくアプローチ
音声分離用混合物からクリーンソースを直接近似する注意増強型DPRNN(AttnAugDPRNN)を導入する。
論文 参考訳(メタデータ) (2021-10-20T14:42:50Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Enhancing Monotonic Multihead Attention for Streaming ASR [43.0382262234792]
変圧器を用いた自動音声認識(ASR)へのハードモノトニック・アテンションの拡張によるモノトニック・マルチヘッド・アテンション(MMA)の検討
ストリーミング推論では、すべてのモノトニックアテンション(MA)ヘッドは、すべてのヘッドが対応するトークン境界を検出するまで次のトークンが生成されないため、適切なアライメントを学習する必要がある。
論文 参考訳(メタデータ) (2020-05-19T12:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。