論文の概要: Knowing What to Stress: A Discourse-Conditioned Text-to-Speech Benchmark
- arxiv url: http://arxiv.org/abs/2604.10580v1
- Date: Sun, 12 Apr 2026 10:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.112366
- Title: Knowing What to Stress: A Discourse-Conditioned Text-to-Speech Benchmark
- Title(参考訳): ストレスとは何か: 対話型テキストから音声へのベンチマーク
- Authors: Arnon Turetzky, Avihu Dekel, Hagai Aronowitz, Ron Hoory, Yossi Adi,
- Abstract要約: TTSにおける文脈条件付き単語レベルストレスを評価するためのベンチマークであるContext-Aware Stress TTS(CAST)を提案する。
テキストのみの言語モデルは、コンテキストから意図したストレスを確実に回復するが、TSシステムは音声でそれを実現できないことが多い。
- 参考スコア(独自算出の注目度): 33.2356561675589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken meaning often depends not only on what is said, but also on which word is emphasized. The same sentence can convey correction, contrast, or clarification depending on where emphasis falls. Although modern text-to-speech (TTS) systems generate expressive speech, it remains unclear whether they infer contextually appropriate stress from discourse alone. To address this gap, we present Context-Aware Stress TTS (CAST), a benchmark for evaluating context-conditioned word-level stress in TTS. Items are defined as contrastive context pairs: identical sentences paired with distinct contexts requiring different stressed words. We evaluate state-of-the-art systems and find a consistent gap: text-only language models reliably recover the intended stress from context, yet TTS systems frequently fail to realize it in speech. We release the benchmark, evaluation framework, construction pipeline and a synthetic corpus to support future work on context-aware speech synthesis.
- Abstract(参考訳): 言葉の意味は、言葉だけでなく、どの単語が強調されるかにも大きく依存する。
同じ文は、強調がどこに落ちるかによって、訂正、コントラスト、または明確化を伝達することができる。
現代のテキスト音声合成システム(TTS)は表現型音声を生成するが、文脈的に適切なストレスを言論のみから推測するかどうかは不明だ。
このギャップに対処するため, 文脈条件付き単語レベルストレス評価ベンチマークである Context-Aware Stress TTS (CAST) を提案する。
項目はコントラストのあるコンテキストペアとして定義され、異なるストレスのある単語を必要とする異なるコンテキストとペア化された同一の文である。
テキストのみの言語モデルは、コンテキストから意図したストレスを確実に回復するが、TSシステムは音声でそれを実現できないことが多い。
このベンチマーク,評価フレームワーク,構築パイプライン,合成コーパスを公開し,文脈対応音声合成の今後の研究を支援する。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis [9.933931058173014]
本稿では,リードオーディオブックから派生した英文コーパスであるLibriQuoteデータセットを紹介する。
トレーニングデータセットは、読み上げ、非表現音声の12.7K時間と、主に文字引用から引き出された表現音声の5.3K時間を含む。
また、TSシステムのベンチマークを目的とした、7.5時間の挑戦的なテストセットも提供します。
論文 参考訳(メタデータ) (2025-09-04T10:05:06Z) - WHISTRESS: Enriching Transcriptions with Sentence Stress Detection [20.802090523583196]
音声言語における話者意図の伝達には, 文ストレスが不可欠である。
WHISTRESSは,文のストレス検出による書き起こしシステム拡張のためのアライメントフリーアプローチである。
TINYSTRESS-15KでWHISTRESSをトレーニングし、いくつかの競争ベースラインに対して評価する。
論文 参考訳(メタデータ) (2025-05-25T11:45:08Z) - Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset [52.95197015472105]
EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。
編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。
EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
論文 参考訳(メタデータ) (2025-05-24T16:10:56Z) - A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings [9.764748000637082]
単語と音節レベルでの発音の自動検出は,コンピュータ支援型言語学習システムの構築に不可欠である。
音声合成音声における音節・音節レベルの優位性は,現在最先端の音声合成システム(SOTA)が学習している韻律埋め込みによってもたらされることが示されている。
論文 参考訳(メタデータ) (2024-12-11T10:58:14Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。