論文の概要: A comparative study of Grid and Natural sentences effects on
Normal-to-Lombard conversion
- arxiv url: http://arxiv.org/abs/2309.10485v1
- Date: Tue, 19 Sep 2023 09:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:15:10.173569
- Title: A comparative study of Grid and Natural sentences effects on
Normal-to-Lombard conversion
- Title(参考訳): 正規対ロンバルド変換におけるグリッドと自然文の比較研究
- Authors: Hongyang Chen, Yuhong Yang, Qingmu Liu, Baifeng Li, Weiping Tu, Song
Lin
- Abstract要約: グリッド文で訓練された正規語からロンバルド語へのモデルが、現実世界の応用における自然言語の可知性を改善するのに十分かどうかは不明だ。
LCTとEMALGを用いたLombard効果とNormal-to-Lombard変換の観点から,自然文と格子文を比較した。
性別による主観的インテリジェンス評価と信号対雑音比(Signal-to-Noise Ratios)に続いて、EMALGでトレーニングされたStarGANモデルは、インテリジェンスの改善の観点からLCTでトレーニングされたモデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 18.061043559517127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grid sentence is commonly used for studying the Lombard effect and
Normal-to-Lombard conversion. However, it's unclear if Normal-to-Lombard models
trained on grid sentences are sufficient for improving natural speech
intelligibility in real-world applications. This paper presents the recording
of a parallel Lombard corpus (called Lombard Chinese TIMIT, LCT) extracting
natural sentences from Chinese TIMIT. Then We compare natural and grid
sentences in terms of Lombard effect and Normal-to-Lombard conversion using LCT
and Enhanced MAndarin Lombard Grid corpus (EMALG). Through a parametric
analysis of the Lombard effect, We find that as the noise level increases, both
natural sentences and grid sentences exhibit similar changes in parameters, but
in terms of the increase of the alpha ratio, grid sentences show a greater
increase. Following a subjective intelligibility assessment across genders and
Signal-to-Noise Ratios, the StarGAN model trained on EMALG consistently
outperforms the model trained on LCT in terms of improving intelligibility.
This superior performance may be attributed to EMALG's larger alpha ratio
increase from normal to Lombard speech.
- Abstract(参考訳): グリッド文は一般にロンバルド効果と通常のロンバルド変換を研究するために用いられる。
しかし、実世界のアプリケーションで自然言語理解性を改善するのに、グリッド文で訓練された通常のロンバルドモデルが十分であるかどうかは不明である。
本稿では,中国語の TIMIT から自然文を抽出する並列な Lombard コーパス (Lombard Chinese TIMIT, LCT) の記録について述べる。
次に,lctと拡張マンダリンロンバルドグリッドコーパス(emalg)を用いて,ロンバルド効果と正常からランバルドへの変換の観点から自然文とグリッド文を比較した。
ランゴバルド効果のパラメトリック解析により、雑音レベルが増加するにつれて、自然文とグリッド文の両方がパラメータに類似する変化を示すが、アルファ比の増加の観点では、グリッド文が増大する。
性別による主観的インテリジェンス評価と信号対雑音比(Signal-to-Noise Ratios)に続いて、EMALGでトレーニングされたStarGANモデルは、インテリジェンスの改善の観点からLCTでトレーニングされたモデルよりも一貫して優れている。
この優れた性能は、EMALGの正規語からロンバルド語へのアルファ比の増大に起因する可能性がある。
関連論文リスト
- Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - Mmm whatcha say? Uncovering distal and proximal context effects in first and second-language word perception using psychophysical reverse correlation [2.785498376469858]
母音知覚は周囲のピッチと発声率の相反する影響によって影響されることを示す。
本研究では, 刺激, 時間スケール, 音響領域にまたがる音環境効果について検討する。
論文 参考訳(メタデータ) (2024-06-08T16:25:30Z) - Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs [101.51435599249234]
大規模言語モデル (LLM) が用いた, 正確な記憶と文脈内推論効果を定義し, 定量化するための公理系を提案する。
具体的には,公理系により,記憶効果を基礎記憶効果とカオス記憶効果に分類することができる。
実験により, 暗記効果と文脈内推論効果の明確な乱れが, LLMによって符号化された詳細な推論パターンの簡易な検証を可能にした。
論文 参考訳(メタデータ) (2024-05-20T08:51:03Z) - Neural inhibition during speech planning contributes to contrastive
hyperarticulation [0.17767466724342065]
本稿では音声開始時間(VOT)計画の動的ニューラルネットワーク(DNF)モデルを提案する。
疑似単語における無声停止子音VOTのCHに関する新しい実験により,モデルの予測を検証した。
その結果, 擬似単語におけるCH効果は, 音声のリアルタイム計画・生成における効果の基盤と一致していることがわかった。
論文 参考訳(メタデータ) (2022-09-25T17:54:59Z) - Measuring the Impact of Individual Domain Factors in Self-Supervised
Pre-Training [60.825471653739555]
音素領域因子は事前学習において重要な役割を担っているが,文法的・統語的要因はそれほど重要ではない。
本研究は,音声認識のための自己教師付き事前学習における事前学習セットのドメイン特性をよりよく理解するための最初の研究である。
論文 参考訳(メタデータ) (2022-03-01T17:40:51Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - Whispered and Lombard Neural Speech Synthesis [6.117432319400054]
合成音声が提示される環境を考慮して、テキストから音声までのシステムが望ましい。
そこで我々は,様々な話し方,すなわち正規語,ロンバルド語,ささやき声を提示し,比較した。
論文 参考訳(メタデータ) (2021-01-13T19:22:11Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。