論文の概要: Exploring the Potential of Lexical Paraphrases for Mitigating
Noise-Induced Comprehension Errors
- arxiv url: http://arxiv.org/abs/2107.08337v1
- Date: Sun, 18 Jul 2021 01:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 05:12:37.573148
- Title: Exploring the Potential of Lexical Paraphrases for Mitigating
Noise-Induced Comprehension Errors
- Title(参考訳): 雑音による理解誤りの軽減に向けた語彙パラフレーズの可能性の検討
- Authors: Anupama Chingacham, Vera Demberg, Dietrich Klakow
- Abstract要約: 音声はノイズによって隠蔽され、リスナーの側で単語の誤認識を引き起こすことがある。
そこで本稿では,意図した意味を表現するために,ノイズロバストな語彙パラフレーズを選択する方法を提案する。
また,同義語に対する理解度を評価した結果,同義語よりも難聴度が低い語彙単位を選択すると,SNR -5 dBで37%,SNR 0 dBで21%の理解率が得られた。
- 参考スコア(独自算出の注目度): 17.486619771816123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Listening in noisy environments can be difficult even for individuals with a
normal hearing thresholds. The speech signal can be masked by noise, which may
lead to word misperceptions on the side of the listener, and overall difficulty
to understand the message. To mitigate hearing difficulties on listeners, a
co-operative speaker utilizes voice modulation strategies like Lombard speech
to generate noise-robust utterances, and similar solutions have been developed
for speech synthesis systems. In this work, we propose an alternate solution of
choosing noise-robust lexical paraphrases to represent an intended meaning. Our
results show that lexical paraphrases differ in their intelligibility in noise.
We evaluate the intelligibility of synonyms in context and find that choosing a
lexical unit that is less risky to be misheard than its synonym introduced an
average gain in comprehension of 37% at SNR -5 dB and 21% at SNR 0 dB for
babble noise.
- Abstract(参考訳): ノイズの多い環境での聴くことは、通常の聴覚閾値を持つ個人でも難しい。
音声信号はノイズによって隠蔽することができ、これは聞き手の側で単語の誤認識を招き、メッセージを理解するのが全体的な困難である。
補聴器の難聴を軽減するため,Lombard音声のような音声変調手法を用いてノイズロバスト発話を生成し,音声合成システムに類似したソリューションを開発した。
本研究では,意図する意味を表現するために,ノイズロバストな語彙パラフレーズを選択する代替解を提案する。
以上の結果から,語彙的パラフレーズは雑音の知覚性が異なることが明らかとなった。
文脈における同義語の理解性を評価し,その同義語よりも誤聴しにくい語彙単位を選択することで,snr -5 dbでは37%,babble noiseではsnr 0 dbでは21%の理解率を得た。
関連論文リスト
- Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? [26.835947209927273]
LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。
本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。
提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
論文 参考訳(メタデータ) (2024-08-07T18:24:23Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification [25.082714256583422]
騒々しい環境では、スピーチは人間にとって理解しにくい。
通常の聴覚を持つ母語話者が知覚するバブルノイズにおける900パラフレーズのデータセットを作成する。
その結果, SNR -5 dBでは, パラフレーズの選択が33%向上することが判明した。
論文 参考訳(メタデータ) (2022-10-19T02:20:17Z) - Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文 参考訳(メタデータ) (2022-02-05T13:03:57Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。