論文の概要: Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors
- arxiv url: http://arxiv.org/abs/2408.06732v1
- Date: Tue, 13 Aug 2024 08:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:07:03.026705
- Title: Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors
- Title(参考訳): 自発英語音声における調音速度の解剖 : 発話長効果と社会的要因との関係
- Authors: James Tanner, Morgan Sonderegger, Jane Stuart-Smith, Tyler Kendall, Jeff Mielke, Robin Dodsworth, Erik Thomas,
- Abstract要約: 発話長の影響は、ひとたび説明されると社会的要因の役割を低下させることが示されている。
年齢や性別も発話速度を調節するが、その効果はマグニチュードよりもはるかに小さい。
これらの結果から,発話長の影響は調音的・知覚的制約によって条件付けられる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.43975202913406947
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech rate has been shown to vary across social categories such as gender, age, and dialect, while also being conditioned by properties of speech planning. The effect of utterance length, where speech rate is faster and less variable for longer utterances, has also been shown to reduce the role of social factors once it has been accounted for, leaving unclear the relationship between social factors and speech production in conditioning speech rate. Through modelling of speech rate across 13 English speech corpora, it is found that utterance length has the largest effect on speech rate, though this effect itself varies little across corpora and speakers. While age and gender also modulate speech rate, their effects are much smaller in magnitude. These findings suggest utterance length effects may be conditioned by articulatory and perceptual constraints, and that social influences on speech rate should be interpreted in the broader context of how speech rate variation is structured.
- Abstract(参考訳): 発話速度は、性別、年齢、方言などの社会的カテゴリーによって異なるが、音声プランニングの特性によっても異なることが示されている。
また, 発話速度がより速く, より長い発話で変化しない発話長が社会要因の役割を低下させることが示されており, 条件付き発話速度における社会的要因と音声生成との関係は明らかでない。
英語音声コーパス間の発話速度のモデル化により、発話長が発話速度に最も大きな影響を及ぼすことがわかったが、この効果自体はコーパスや話者によってほとんど変化しない。
年齢や性別も発話速度を調節するが、その効果は桁違いに小さい。
これらの結果から,発話長の影響は調音的・知覚的制約によって条件付けされ,発話速度に対する社会的影響は,発話速度の変動がどう構成されるかというより広い文脈で解釈されるべきであることが示唆された。
関連論文リスト
- Mmm whatcha say? Uncovering distal and proximal context effects in first and second-language word perception using psychophysical reverse correlation [2.785498376469858]
母音知覚は周囲のピッチと発声率の相反する影響によって影響されることを示す。
本研究では, 刺激, 時間スケール, 音響領域にまたがる音環境効果について検討する。
論文 参考訳(メタデータ) (2024-06-08T16:25:30Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - Accented Speech Recognition under the Indian context [0.0]
アクセントは文化、感情、行動などを特定する上で不可欠な部分を形成します。
人々はアクセントのために異なる方法でお互いを知覚することが多い。
アクセントそのものは、ステータス、プライド、その他の感情的な情報を伝達するものであり、音声自体を通して捉えることができる。
論文 参考訳(メタデータ) (2022-09-08T12:59:14Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Prosody leaks into the memories of words [2.309770674164469]
文脈における単語の平均予測可能性(すなわち情報性)は、条件付き単語持続時間を示す。
この研究は過去の研究を2つの方向に拡張し、もう一つの大きな言語である中国語における情報伝達効果について研究した。
その結果,低情報率の単語は短い期間であり,英語で見られる効果を再現していることがわかった。
論文 参考訳(メタデータ) (2020-05-29T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。