論文の概要: Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network
- arxiv url: http://arxiv.org/abs/2302.13376v2
- Date: Sat, 24 Feb 2024 07:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:49:00.235263
- Title: Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network
- Title(参考訳): 時間遅延ニューラルネットワークを用いたマルチモーダル振舞い復元のための効率的なアンサンブル
- Authors: Xing Yi Liu and Homayoon Beigi
- Abstract要約: 自動音声認識の処理過程において,句読解は重要な役割を担っている。
マルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法であるEfficientPunctを提案する。
現在のベストモデルを1.0 F1ポイント上回り、推論ネットワークパラメータの10分の1以下である。
- 参考スコア(独自算出の注目度): 1.006218778776515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Punctuation restoration plays an essential role in the post-processing
procedure of automatic speech recognition, but model efficiency is a key
requirement for this task. To that end, we present EfficientPunct, an ensemble
method with a multimodal time-delay neural network that outperforms the current
best model by 1.0 F1 points, using less than a tenth of its inference network
parameters. We streamline a speech recognizer to efficiently output hidden
layer acoustic embeddings for punctuation restoration, as well as BERT to
extract meaningful text embeddings. By using forced alignment and temporal
convolutions, we eliminate the need for attention-based fusion, greatly
increasing computational efficiency and raising performance. EfficientPunct
sets a new state of the art with an ensemble that weights BERT's purely
language-based predictions slightly more than the multimodal network's
predictions. Our code is available at
https://github.com/lxy-peter/EfficientPunct.
- Abstract(参考訳): 自動音声認識における後処理過程において,句読点復元が重要な役割を担っているが,モデル効率が重要な課題である。
そこで本研究では,10分の1未満の推論ネットワークパラメータを用いて,現在の最良モデルの1.0f1点を上回るマルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法である efficientpunct を提案する。
音声認識器を用いて、句読取復元のための隠れ層音響埋め込みを効率よく出力し、BERTを用いて意味のあるテキスト埋め込みを抽出する。
強制的なアライメントと時間的畳み込みを用いることで,注意に基づく融合の必要性をなくし,計算効率を大幅に向上させ,性能を向上させる。
efficientpunctは、bertの純粋言語に基づく予測をマルチモーダルネットワークの予測よりもわずかに重み付けするアンサンブルで、新しい芸術状態を設定する。
私たちのコードはhttps://github.com/lxy-peter/ efficientpunctで利用可能です。
関連論文リスト
- SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Time-Domain Mapping Based Single-Channel Speech Separation With
Hierarchical Constraint Training [10.883458728718047]
複数話者音声認識には単一チャンネル音声分離が必要である。
時間領域音声分離網(TasNet)に着目した最近の深層学習に基づくアプローチ
音声分離用混合物からクリーンソースを直接近似する注意増強型DPRNN(AttnAugDPRNN)を導入する。
論文 参考訳(メタデータ) (2021-10-20T14:42:50Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。