論文の概要: Monotonic segmental attention for automatic speech recognition
- arxiv url: http://arxiv.org/abs/2210.14742v1
- Date: Wed, 26 Oct 2022 14:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:38:31.338567
- Title: Monotonic segmental attention for automatic speech recognition
- Title(参考訳): 自動音声認識のための単調セグメント注意
- Authors: Albert Zeyer, Robin Schmitt, Wei Zhou, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 本稿では,音声認識のための新しいセグメントアテンションモデルを提案する。
グローバルアテンションとセグメントアテンションモデリングの違いを比較した。
分節モデルは最大数分間の長い列に対してはるかに良く一般化する。
- 参考スコア(独自算出の注目度): 45.036436385637295
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a novel segmental-attention model for automatic speech
recognition. We restrict the decoder attention to segments to avoid quadratic
runtime of global attention, better generalize to long sequences, and
eventually enable streaming. We directly compare global-attention and different
segmental-attention modeling variants. We develop and compare two separate
time-synchronous decoders, one specifically taking the segmental nature into
account, yielding further improvements. Using time-synchronous decoding for
segmental models is novel and a step towards streaming applications. Our
experiments show the importance of a length model to predict the segment
boundaries. The final best segmental-attention model using segmental decoding
performs better than global-attention, in contrast to other monotonic attention
approaches in the literature. Further, we observe that the segmental model
generalizes much better to long sequences of up to several minutes.
- Abstract(参考訳): 本稿では,自動音声認識のためのセグメント・アテンションモデルを提案する。
我々はデコーダの注意をセグメントに制限し、グローバルな注意の二次的実行を回避し、長いシーケンスをより一般化し、最終的にストリーミングを可能にする。
グローバルアテンションと異なるセグメンショナルアテンションモデリングのバリエーションを直接比較する。
我々は2つの異なる時間同期デコーダを開発し比較し、その1つはセグメント的性質を考慮に入れ、さらなる改善をもたらす。
セグメントモデルの時間同期デコーディングは新しく、ストリーミングアプリケーションへの一歩です。
実験では,セグメント境界を予測するための長さモデルの重要性を示す。
セグメントデコーディングを用いた最後の最適セグメントアテンションモデルは、文献における他のモノトニックアテンションアプローチとは対照的に、グローバルアテンションよりも優れている。
さらに,分節モデルは最大数分間の長い列に対してはるかによく一般化する。
関連論文リスト
- Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - A study of latent monotonic attention variants [65.73442960456013]
エンドツーエンドモデルは音声認識の最先端性能に達するが、グローバルソフトな注意は単調ではない。
本稿では,新しい潜在変数を導入することで,単調性を導入する数学的にクリーンな解を提案する。
モノトニックモデルがグローバルソフトアテンションモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-30T22:35:56Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。