論文の概要: Rethinking Speech Recognition with A Multimodal Perspective via Acoustic
and Semantic Cooperative Decoding
- arxiv url: http://arxiv.org/abs/2305.14049v1
- Date: Tue, 23 May 2023 13:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:10:23.757801
- Title: Rethinking Speech Recognition with A Multimodal Perspective via Acoustic
and Semantic Cooperative Decoding
- Title(参考訳): 音響・意味的協調復号によるマルチモーダル視点による音声認識の再考
- Authors: Tian-Hao Zhang, Hai-Bo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu, Feng
Chen, Xinyuan Qian, Xu-Cheng Yin
- Abstract要約: ASRのための音響・意味的協調デコーダ(ASCD)を提案する。
音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。
音響情報と意味情報の両方を協調的に活用することにより,ASCDは性能を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 29.80299587861207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based encoder-decoder (AED) models have shown impressive
performance in ASR. However, most existing AED methods neglect to
simultaneously leverage both acoustic and semantic features in decoder, which
is crucial for generating more accurate and informative semantic states. In
this paper, we propose an Acoustic and Semantic Cooperative Decoder (ASCD) for
ASR. In particular, unlike vanilla decoders that process acoustic and semantic
features in two separate stages, ASCD integrates them cooperatively. To prevent
information leakage during training, we design a Causal Multimodal Mask.
Moreover, a variant Semi-ASCD is proposed to balance accuracy and computational
cost. Our proposal is evaluated on the publicly available AISHELL-1 and
aidatatang_200zh datasets using Transformer, Conformer, and Branchformer as
encoders, respectively. The experimental results show that ASCD significantly
improves the performance by leveraging both the acoustic and semantic
information cooperatively.
- Abstract(参考訳): Attention-based encoder-decoder (AED) モデルは、ASRで顕著な性能を示した。
しかし、既存のAED手法の多くはデコーダの音響的特徴と意味的特徴の両方を同時に活用することを無視している。
本稿では,ASRのための音響・意味的協調デコーダ(ASCD)を提案する。
特に、音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。
トレーニング中の情報漏洩を防止するために,コーサルマルチモーダルマスクを設計する。
さらに,精度と計算コストのバランスをとるため,Semi-ASCDの変種を提案する。
本提案は,transformer,conformer,branchformerをエンコーダとして使用するaishell-1およびaidatatang_200zhデータセット上で評価する。
実験の結果,ASCDは音響情報と意味情報の両方を協調的に活用することにより,性能を著しく向上させることがわかった。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - An Effective Mixture-Of-Experts Approach For Code-Switching Speech
Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。
エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。
提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-02-27T04:08:59Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Encoder-decoder multimodal speaker change detection [15.290910973040152]
話者変化検出(SCD)はいくつかのアプリケーションに必須である。
音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。
本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
論文 参考訳(メタデータ) (2023-06-01T13:55:23Z) - Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks [28.440232737011453]
そこで本稿では,Transducer と Attention based AED-Decoder (TAED) を組み合わせることで,音声からテキストへ変換する手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるTransducerの強度をシーケンス学習に活用する。
提案手法をtextscMuST-C データセットで評価し,TAED が Transducer よりもオフライン自動音声認識(ASR) や 音声からテキストへの変換(ST) 処理に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:34:50Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。