論文の概要: SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation
- arxiv url: http://arxiv.org/abs/2504.05106v1
- Date: Mon, 07 Apr 2025 14:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:12.760003
- Title: SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation
- Title(参考訳): SpeakEasy: 表現的コンテンツ作成のためのテキストと音声のインタラクションの強化
- Authors: Stephen Brade, Sam Anderson, Rithesh Kumar, Zeyu Jin, Anh Truong,
- Abstract要約: 初心者のコンテンツクリエーターは、ソーシャルメディアビデオの表現的なスピーチを録音するのにかなりの時間を費やしていることが多い。
そこで本研究では,テキスト音声生成の簡易化について提案する。
我々のWizard-of-OzシステムであるSpeakEasyは、ユーザが提供するコンテキストを活用して、TS出力を通知し、影響を及ぼす。
- 参考スコア(独自算出の注目度): 11.622100074425843
- License:
- Abstract: Novice content creators often invest significant time recording expressive speech for social media videos. While recent advancements in text-to-speech (TTS) technology can generate highly realistic speech in various languages and accents, many struggle with unintuitive or overly granular TTS interfaces. We propose simplifying TTS generation by allowing users to specify high-level context alongside their script. Our Wizard-of-Oz system, SpeakEasy, leverages user-provided context to inform and influence TTS output, enabling iterative refinement with high-level feedback. This approach was informed by two 8-subject formative studies: one examining content creators' experiences with TTS, and the other drawing on effective strategies from voice actors. Our evaluation shows that participants using SpeakEasy were more successful in generating performances matching their personal standards, without requiring significantly more effort than leading industry interfaces.
- Abstract(参考訳): 初心者のコンテンツクリエーターは、ソーシャルメディアビデオの表現的なスピーチを録音するのにかなりの時間を費やしていることが多い。
最近のTTS(text-to-Speech)技術は、様々な言語やアクセントで非常にリアルな音声を生成することができるが、多くの人は直感的あるいは過剰な粒度のTSインタフェースに苦慮している。
本稿では,スクリプトと並行して高レベルなコンテキストを指定できるようにすることにより,TS生成の簡略化を提案する。
我々のWizard-of-OzシステムであるSpeakEasyは、ユーザが提供するコンテキストを活用して、TS出力を通知し、影響を与え、高いレベルのフィードバックで反復的な改善を可能にする。
このアプローチは、コンテンツクリエーターがTSで経験した経験を調査することと、音声アクターによる効果的な戦略を描いていることの2つの8つのサブジェクティブ・フォーマティブ・スタディによって知らされた。
評価の結果,SpeakEasyを用いた参加者は,業界をリードするインターフェースよりも多大な労力を要せず,個人的基準に適合するパフォーマンスを生み出すことができた。
関連論文リスト
- Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。
本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文 参考訳(メタデータ) (2024-10-24T23:18:02Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations [12.891344121936902]
本稿では,高ETTSデータセットであるStoryTTSについて紹介する。
StoryTTSでは,言語学や修辞学などを通じて,5つの異なる次元を含む音声関連テキスト表現を分析・定義する。
得られたコーパスは、正確なテキスト書き起こしとリッチテキスト表現性アノテーションを備えた61時間連続かつ高韻律音声を含む。
論文 参考訳(メタデータ) (2024-04-23T11:41:35Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Simple and Effective Multi-sentence TTS with Expressive and Coherent
Prosody [16.78219386612505]
長いコンテキスト、強力なテキスト機能、マルチスピーカーデータのトレーニングはすべて韻律を改善します。
BERTのような強力な言語モデルからの微調整されたワードレベル機能は、より多くのトレーニングデータから利益を得ているように見える。
本システムでは,全ての競合相手に対して,音声の自然度を統計的に有意に向上させるなど,一貫した強靭な結果が得られる。
論文 参考訳(メタデータ) (2022-06-29T13:37:03Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。