論文の概要: Exploring Sentence Type Effects on the Lombard Effect and Intelligibility Enhancement: A Comparative Study of Natural and Grid Sentences
- arxiv url: http://arxiv.org/abs/2309.10485v2
- Date: Tue, 9 Jul 2024 03:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:31:04.051886
- Title: Exploring Sentence Type Effects on the Lombard Effect and Intelligibility Enhancement: A Comparative Study of Natural and Grid Sentences
- Title(参考訳): ロンバルド効果と知能向上に及ぼす文型の影響:自然文と格子文の比較研究
- Authors: Hongyang Chen, Yuhong Yang, Zhongyuan Wang, Weiping Tu, Haojun Ai, Song Lin,
- Abstract要約: 本研究は,文型がロンバルド効果とインテリジェンス向上にどのように影響するかを考察する。
雑音レベルの異なる音素・音響特性の変化を解析する。
格子文は自然文よりもロンバルド効果が顕著である。
- 参考スコア(独自算出の注目度): 22.625760672815638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores how sentence types affect the Lombard effect and intelligibility enhancement, focusing on comparisons between natural and grid sentences. Using the Lombard Chinese-TIMIT (LCT) corpus and the Enhanced MAndarin Lombard Grid (EMALG) corpus, we analyze changes in phonetic and acoustic features across different noise levels. Our results show that grid sentences produce more pronounced Lombard effects than natural sentences. Then, we develop and test a normal-to-Lombard conversion model, trained separately on LCT and EMALG corpora. Through subjective and objective evaluations, natural sentences are superior in maintaining speech quality in intelligibility enhancement. In contrast, grid sentences could provide superior intelligibility due to the more pronounced Lombard effect. This study provides a valuable perspective on enhancing speech communication in noisy environments.
- Abstract(参考訳): 本研究は,文タイプがLombard効果とインテリジェンス向上にどのように影響するかを,自然文と格子文の比較に焦点をあてる。
Lombard Chinese-TIMIT (LCT) コーパスと Enhanced MAndarin Lombard Grid (EMALG) コーパスを用いて, 雑音レベルの異なる音質・音響特性の変化を解析した。
以上の結果から,格子文は自然文よりもロンバルド効果が顕著であることが示唆された。
そこで本研究では,LCTとEMALGコーパスを別々に学習した正規対ロンバルド変換モデルを開発した。
主観的・客観的評価を通じて、自然文は可知性向上における音声品質の維持に優れている。
対照的に、グリッド文は、より顕著なロンバルド効果のために、より優れた知性を提供することができる。
本研究は,雑音環境における音声コミュニケーションの強化に関する貴重な視点を提供する。
関連論文リスト
- Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - Mmm whatcha say? Uncovering distal and proximal context effects in first and second-language word perception using psychophysical reverse correlation [2.785498376469858]
母音知覚は周囲のピッチと発声率の相反する影響によって影響されることを示す。
本研究では, 刺激, 時間スケール, 音響領域にまたがる音環境効果について検討する。
論文 参考訳(メタデータ) (2024-06-08T16:25:30Z) - Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs [101.51435599249234]
大規模言語モデル (LLM) が用いた, 正確な記憶と文脈内推論効果を定義し, 定量化するための公理系を提案する。
具体的には,公理系により,記憶効果を基礎記憶効果とカオス記憶効果に分類することができる。
実験により, 暗記効果と文脈内推論効果の明確な乱れが, LLMによって符号化された詳細な推論パターンの簡易な検証を可能にした。
論文 参考訳(メタデータ) (2024-05-20T08:51:03Z) - Neural inhibition during speech planning contributes to contrastive
hyperarticulation [0.17767466724342065]
本稿では音声開始時間(VOT)計画の動的ニューラルネットワーク(DNF)モデルを提案する。
疑似単語における無声停止子音VOTのCHに関する新しい実験により,モデルの予測を検証した。
その結果, 擬似単語におけるCH効果は, 音声のリアルタイム計画・生成における効果の基盤と一致していることがわかった。
論文 参考訳(メタデータ) (2022-09-25T17:54:59Z) - Measuring the Impact of Individual Domain Factors in Self-Supervised
Pre-Training [60.825471653739555]
音素領域因子は事前学習において重要な役割を担っているが,文法的・統語的要因はそれほど重要ではない。
本研究は,音声認識のための自己教師付き事前学習における事前学習セットのドメイン特性をよりよく理解するための最初の研究である。
論文 参考訳(メタデータ) (2022-03-01T17:40:51Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - Whispered and Lombard Neural Speech Synthesis [6.117432319400054]
合成音声が提示される環境を考慮して、テキストから音声までのシステムが望ましい。
そこで我々は,様々な話し方,すなわち正規語,ロンバルド語,ささやき声を提示し,比較した。
論文 参考訳(メタデータ) (2021-01-13T19:22:11Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。