論文の概要: Covertly improving intelligibility with data-driven adaptations of speech timing
- arxiv url: http://arxiv.org/abs/2603.30032v1
- Date: Tue, 31 Mar 2026 17:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.95406
- Title: Covertly improving intelligibility with data-driven adaptations of speech timing
- Title(参考訳): データ駆動型音声タイミング適応による包括的インテリジェンス向上
- Authors: Paige Tuttösí, Angelica Lim, H. Henny Yeung, Yue Wang, Jean-Julien Aucouturier,
- Abstract要約: 音声の精度をより正確に制御できる機械音声の最近の進歩を生かしている。
対象母音のコントラストに先行する発話速度の時間的影響は,実際にはさみ様パターンに現れることを示す。
我々は、この時間構造を新しい音声シーケンスで再現するデータ駆動音声合成アルゴリズムを構築した。
- 参考スコア(独自算出の注目度): 3.61940804174624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human talkers often address listeners with language-comprehension challenges, such as hard-of-hearing or non-native adults, by globally slowing down their speech. However, it remains unclear whether this strategy actually makes speech more intelligible. Here, we take advantage of recent advancements in machine-generated speech allowing more precise control of speech rate in order to systematically examine how targeted speech-rate adjustments may improve comprehension. We first use reverse-correlation experiments to show that the temporal influence of speech rate prior to a target vowel contrast (ex. the tense-lax distinction) in fact manifests in a scissor-like pattern, with opposite effects in early versus late context windows; this pattern is remarkably stable both within individuals and across native L1-English listeners and L2-English listeners with French, Mandarin, and Japanese L1s. Second, we show that this speech rate structure not only facilitates L2 listeners' comprehension of the target vowel contrast, but that native listeners also rely on this pattern in challenging acoustic conditions. Finally, we build a data-driven text-to-speech algorithm that replicates this temporal structure on novel speech sequences. Across a variety of sentences and vowel contrasts, listeners remained unaware that such targeted slowing improved word comprehension. Strikingly, participants instead judged the common strategy of global slowing as clearer, even though it actually increased comprehension errors. Together, these results show that targeted adjustments to speech rate significantly aid intelligibility under challenging conditions, while often going unnoticed. More generally, this paper provides a data-driven methodology to improve the accessibility of machine-generated speech which can be extended to other aspects of speech comprehension and a wide variety of listeners and environments.
- Abstract(参考訳): 人間の話し手はしばしば、話し言葉をグローバルに遅くすることで、難聴者や非ネイティブな大人のような言語理解の問題に対処する。
しかし、この戦略が実際に音声をより理解しやすくするかどうかは不明である。
そこで本研究では,発話速度のより精密な制御を可能にする機械音声の最近の進歩を活用し,ターゲット音声量調整が理解をいかに改善するかを体系的に検討する。
このパターンは,フランス語,マンダリン語,日本語のL1- EnglishリスナーとL1- Englishリスナーの間で,個人内および母語の両方で著しく安定している。
第二に、この発話速度構造はL2リスナーの目標母音コントラストの理解を促進するだけでなく、ネイティブリスナーも難易度の高い音響条件においてこのパターンに依存していることが示される。
最後に,この時間構造を新しい音声系列に再現するデータ駆動音声合成アルゴリズムを構築した。
様々な文や母音のコントラストにまたがって、リスナーはそのようなターゲットが単語理解を遅くすることに気づかなかった。
興味深いことに、参加者は、理解エラーが実際に増加したとしても、グローバルな減速の一般的な戦略を、より明確であると判断した。
これらの結果から,発話速度の目標調整は,難解な条件下での知性向上に大きく寄与するが,しばしば気づかない状況に陥ることが示唆された。
より一般的に、本論文は、音声理解の他の側面や多様なリスナーや環境にも拡張可能な、機械生成音声のアクセシビリティ向上のためのデータ駆動手法を提供する。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - You Sound a Little Tense: L2 Tailored Clear TTS Using Durational Vowel Properties [3.61940804174624]
本稿では,第2言語話者(L2)に合わせたTTSシステムを提案する。
我々は、アメリカ英語の時制(長音)とラックス(短音)の母音の持続時間差を用いて、Matcha-TTSの「明度モード」を作成する。
論文 参考訳(メタデータ) (2025-06-29T18:55:05Z) - In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties [24.74769794165231]
本稿では,Phi-4 Multimodal におけるコンテキスト内学習(ICL)を実現するスケーラブルなフレームワークを提案する。
単語の誤り率を相対的に19.7%減少させるのは、12の例に過ぎない。
全体として、我々の新しいICL適応方式は、人間の聴取者と同様の性能を示す。
論文 参考訳(メタデータ) (2025-05-20T20:20:37Z) - Language-agnostic, automated assessment of listeners' speech recall using large language models [0.0]
本研究は、英語母語話者と10言語母語話者の現代大言語モデル(LLM)を活用する。
参加者は母国語の短い話(静かで明快で、バブルノイズで)を聴き、自由に呼び戻した。
LLMは、意味的類似性分析によるエンジニアリングを促進させ、音声のリコールを評価することで、時間順、プライマリシー/レシーシ、バックグラウンドノイズの既知の影響に対する感受性を明らかにした。
論文 参考訳(メタデータ) (2025-03-02T22:28:41Z) - Continuous Speech Tokenizer in Text To Speech [27.057221389827735]
本稿では,Cont-SPTという連続音声トークン化手法と,連続音声トークンに基づく音声合成モデルを提案する。
この結果から,連続音声認識を用いた音声モデルの方が連続性が高く,平均オピニオンスコア(MoS)が高いことがわかった。
この拡張は、周波数領域における低周波および高周波の両方にわたる連続音声認識器の情報保存率の向上に起因する。
論文 参考訳(メタデータ) (2024-10-22T15:02:37Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。