論文の概要: Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition
- arxiv url: http://arxiv.org/abs/2110.03894v5
- Date: Mon, 30 Oct 2023 06:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 05:25:17.433037
- Title: Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition
- Title(参考訳): 低リソース音声コマンド認識のための類似性を用いたニューラルモデル再構成
- Authors: Hao Yen, Pin-Jui Ku, Chao-Han Huck Yang, Hu Hu, Sabato Marco
Siniscalchi, Pin-Yu Chen, Yu Tsao
- Abstract要約: 低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 71.96870151495536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we propose a novel adversarial reprogramming (AR) approach for
low-resource spoken command recognition (SCR), and build an AR-SCR system. The
AR procedure aims to modify the acoustic signals (from the target domain) to
repurpose a pretrained SCR model (from the source domain). To solve the label
mismatches between source and target domains, and further improve the stability
of AR, we propose a novel similarity-based label mapping technique to align
classes. In addition, the transfer learning (TL) technique is combined with the
original AR process to improve the model adaptation capability. We evaluate the
proposed AR-SCR system on three low-resource SCR datasets, including Arabic,
Lithuanian, and dysarthric Mandarin speech. Experimental results show that with
a pretrained AM trained on a large-scale English dataset, the proposed AR-SCR
system outperforms the current state-of-the-art results on Arabic and
Lithuanian speech commands datasets, with only a limited amount of training
data.
- Abstract(参考訳): 本研究では,低リソース音声コマンド認識(SCR)のための新しいAR手法を提案し,AR-SCRシステムを構築する。
ARプロシージャは(ターゲットドメインから)音響信号を修正して(ソースドメインから)事前訓練されたSCRモデルを再利用することを目的としている。
ソースドメインとターゲットドメインのラベルミスマッチを解消し、arの安定性をさらに高めるため、クラスをアライメントするための新しい類似性に基づくラベルマッピング手法を提案する。
さらに、トランスファーラーニング(TL)技術と元のARプロセスを組み合わせることで、モデル適応性を向上させる。
提案したAR-SCRシステムは,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
実験結果から、大規模な英語データセットで事前訓練されたAMを用いて、提案したAR-SCRシステムは、アラビア語およびリトアニア語の音声コマンドデータセット上で、限られた訓練データのみを用いて、現在の最先端の結果を上回ります。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Cross-utterance ASR Rescoring with Graph-based Label Propagation [14.669201156515891]
本稿では,グラフに基づくラベルの伝搬を反映した新しいASR N-best仮説を提案する。
従来のニューラルネットワークモデル(LM)をベースとしたASR再構成/格付けモデルとは対照的に,本手法は音響情報に重点を置いている。
論文 参考訳(メタデータ) (2023-03-27T12:08:05Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。