論文の概要: Content-Context Factorized Representations for Automated Speech
Recognition
- arxiv url: http://arxiv.org/abs/2205.09872v1
- Date: Thu, 19 May 2022 21:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 16:02:23.190915
- Title: Content-Context Factorized Representations for Automated Speech
Recognition
- Title(参考訳): 自動音声認識のためのコンテンツコンテキスト分解表現
- Authors: David M. Chan, Shalini Ghosh
- Abstract要約: 本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。
我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
- 参考スコア(独自算出の注目度): 12.618527387900079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have largely demonstrated their ability to perform
automated speech recognition (ASR) by extracting meaningful features from input
audio frames. Such features, however, may consist not only of information about
the spoken language content, but also may contain information about unnecessary
contexts such as background noise and sounds or speaker identity, accent, or
protected attributes. Such information can directly harm generalization
performance, by introducing spurious correlations between the spoken words and
the context in which such words were spoken. In this work, we introduce an
unsupervised, encoder-agnostic method for factoring speech-encoder
representations into explicit content-encoding representations and spurious
context-encoding representations. By doing so, we demonstrate improved
performance on standard ASR benchmarks, as well as improved performance in both
real-world and artificially noisy ASR scenarios.
- Abstract(参考訳): ディープニューラルネットワークは、入力された音声フレームから有意義な特徴を抽出することにより、自動音声認識(ASR)を実行する能力を大きく実証している。
しかし、そのような特徴は、話し言葉の内容に関する情報だけでなく、背景雑音や音、話者のアイデンティティ、アクセント、保護された属性といった不要な文脈に関する情報も含むことができる。
このような情報は、話し言葉と話し言葉の文脈とのスプリアスな相関を導入することによって、一般化性能に直結する可能性がある。
本稿では,音声エンコーダ表現を明示的なコンテンツエンコーダ表現とスプリアスな文脈エンコーダ表現に分解する教師なし,エンコーダ非依存の手法を提案する。
これにより、標準的なASRベンチマークの性能向上と、実環境と人工ノイズのあるASRシナリオの両方のパフォーマンス向上を実証する。
関連論文リスト
- Disentangling Textual and Acoustic Features of Neural Speech Representations [23.486891834252535]
我々は,複雑な音声表現のためのアンタングル化フレームワークを提案するために,インフォメーション・ボトルネックの原理に基づいて構築する。
我々は、感情認識と話者識別のための枠組みを下流のタスクに適用する。
論文 参考訳(メタデータ) (2024-10-03T22:48:04Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。
本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文 参考訳(メタデータ) (2024-08-12T10:21:09Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。