論文の概要: A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification
- arxiv url: http://arxiv.org/abs/2210.10252v1
- Date: Wed, 19 Oct 2022 02:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:12:06.880520
- Title: A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification
- Title(参考訳): 言語的修正を伴う雑音適応発話生成に関するデータ駆動型検討
- Authors: Anupama Chingacham, Vera Demberg, Dietrich Klakow
- Abstract要約: 騒々しい環境では、スピーチは人間にとって理解しにくい。
通常の聴覚を持つ母語話者が知覚するバブルノイズにおける900パラフレーズのデータセットを作成する。
その結果, SNR -5 dBでは, パラフレーズの選択が33%向上することが判明した。
- 参考スコア(独自算出の注目度): 25.082714256583422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In noisy environments, speech can be hard to understand for humans. Spoken
dialog systems can help to enhance the intelligibility of their output, either
by modifying the speech synthesis (e.g., imitate Lombard speech) or by
optimizing the language generation. We here focus on the second type of
approach, by which an intended message is realized with words that are more
intelligible in a specific noisy environment. By conducting a speech perception
experiment, we created a dataset of 900 paraphrases in babble noise, perceived
by native English speakers with normal hearing. We find that careful selection
of paraphrases can improve intelligibility by 33% at SNR -5 dB. Our analysis of
the data shows that the intelligibility differences between paraphrases are
mainly driven by noise-robust acoustic cues. Furthermore, we propose an
intelligibility-aware paraphrase ranking model, which outperforms baseline
models with a relative improvement of 31.37% at SNR -5 dB.
- Abstract(参考訳): 騒々しい環境では、スピーチは人間にとって理解しにくい。
音声対話システムは、音声合成(例えば、ロンバルド音声の模倣)を変更するか、言語生成を最適化することによって、出力の知性を高めるのに役立つ。
ここでは,意図したメッセージが,特定の雑音環境においてより理解しやすい単語で実現される,第2の手法に注目する。
音声知覚実験を行い,正常な英語話者が知覚するバブル雑音における900パラフレーズのデータセットを作成した。
SNR -5 dBでは, パラフレーズの選択が33%向上することが確認された。
このデータから, パラフレーズ間の知覚的差異は, 主にノイズ・ロバストな音響的手がかりによって引き起こされることが示された。
さらに,snr-5dbにおける31.37%の相対的改善でベースラインモデルを上回る,知性を考慮したパラフレーゼランキングモデルを提案する。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Exploring the Potential of Lexical Paraphrases for Mitigating
Noise-Induced Comprehension Errors [17.486619771816123]
音声はノイズによって隠蔽され、リスナーの側で単語の誤認識を引き起こすことがある。
そこで本稿では,意図した意味を表現するために,ノイズロバストな語彙パラフレーズを選択する方法を提案する。
また,同義語に対する理解度を評価した結果,同義語よりも難聴度が低い語彙単位を選択すると,SNR -5 dBで37%,SNR 0 dBで21%の理解率が得られた。
論文 参考訳(メタデータ) (2021-07-18T01:16:33Z) - Supervised Contrastive Learning for Accented Speech Recognition [7.5253263976291676]
アクセント付き音声認識のための教師付きコントラスト学習フレームワークについて検討する。
比較学習は平均して3.66%(ゼロショット)と3.78%(フルショット)の精度を向上できることを示す。
論文 参考訳(メタデータ) (2021-07-02T09:23:33Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。