Fugu-MT 論文翻訳(概要): Content-Context Factorized Representations for Automated Speech Recognition

論文の概要: Content-Context Factorized Representations for Automated Speech Recognition

arxiv url: http://arxiv.org/abs/2205.09872v1
Date: Thu, 19 May 2022 21:34:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-23 16:02:23.190915
Title: Content-Context Factorized Representations for Automated Speech Recognition
Title（参考訳）: 自動音声認識のためのコンテンツコンテキスト分解表現
Authors: David M. Chan, Shalini Ghosh
Abstract要約: 本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
参考スコア（独自算出の注目度）: 12.618527387900079
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks have largely demonstrated their ability to perform automated speech recognition (ASR) by extracting meaningful features from input audio frames. Such features, however, may consist not only of information about the spoken language content, but also may contain information about unnecessary contexts such as background noise and sounds or speaker identity, accent, or protected attributes. Such information can directly harm generalization performance, by introducing spurious correlations between the spoken words and the context in which such words were spoken. In this work, we introduce an unsupervised, encoder-agnostic method for factoring speech-encoder representations into explicit content-encoding representations and spurious context-encoding representations. By doing so, we demonstrate improved performance on standard ASR benchmarks, as well as improved performance in both real-world and artificially noisy ASR scenarios.
Abstract（参考訳）: ディープニューラルネットワークは、入力された音声フレームから有意義な特徴を抽出することにより、自動音声認識(ASR)を実行する能力を大きく実証している。しかし、そのような特徴は、話し言葉の内容に関する情報だけでなく、背景雑音や音、話者のアイデンティティ、アクセント、保護された属性といった不要な文脈に関する情報も含むことができる。このような情報は、話し言葉と話し言葉の文脈とのスプリアスな相関を導入することによって、一般化性能に直結する可能性がある。本稿では,音声エンコーダ表現を明示的なコンテンツエンコーダ表現とスプリアスな文脈エンコーダ表現に分解する教師なし,エンコーダ非依存の手法を提案する。これにより、標準的なASRベンチマークの性能向上と、実環境と人工ノイズのあるASRシナリオの両方のパフォーマンス向上を実証する。

関連論文リスト

Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
Disentangling Textual and Acoustic Features of Neural Speech Representations [23.486891834252535]
我々は,複雑な音声表現のためのアンタングル化フレームワークを提案するために,インフォメーション・ボトルネックの原理に基づいて構築する。我々は、感情認識と話者識別のための枠組みを下流のタスクに適用する。
論文参考訳（メタデータ） (2024-10-03T22:48:04Z)
STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。 Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文参考訳（メタデータ） (2024-09-04T02:20:59Z)
Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文参考訳（メタデータ） (2024-08-12T10:21:09Z)
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。同様のビットレートでEncodecを上回るパイプラインを導入する。
論文参考訳（メタデータ） (2024-07-03T20:51:41Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文参考訳（メタデータ） (2022-11-15T18:44:28Z)
Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文参考訳（メタデータ） (2022-07-03T13:32:24Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。 IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文参考訳（メタデータ） (2021-04-20T17:10:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。