論文の概要: Seeing What You Say: Expressive Image Generation from Speech
- arxiv url: http://arxiv.org/abs/2511.03423v1
- Date: Wed, 05 Nov 2025 12:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.427789
- Title: Seeing What You Say: Expressive Image Generation from Speech
- Title(参考訳): 言論:音声からの表現的画像生成
- Authors: Jiyoung Lee, Song Park, Sanghyuk Chun, Soo-Whan Chung,
- Abstract要約: VoxStudioは、言語情報とパラ言語情報を共同で調整することで、音声記述から直接表現的画像を生成する。
セマンティックトークンを直接操作することで、VoxStudioは追加の音声テキストシステムを必要としない。
私たちはまた、高度なTSエンジンによって構築された大規模ペアの感情的音声画像データセットであるVoxEmosetをリリースしました。
- 参考スコア(独自算出の注目度): 39.6782945295833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes VoxStudio, the first unified and end-to-end speech-to-image model that generates expressive images directly from spoken descriptions by jointly aligning linguistic and paralinguistic information. At its core is a speech information bottleneck (SIB) module, which compresses raw speech into compact semantic tokens, preserving prosody and emotional nuance. By operating directly on these tokens, VoxStudio eliminates the need for an additional speech-to-text system, which often ignores the hidden details beyond text, e.g., tone or emotion. We also release VoxEmoset, a large-scale paired emotional speech-image dataset built via an advanced TTS engine to affordably generate richly expressive utterances. Comprehensive experiments on the SpokenCOCO, Flickr8kAudio, and VoxEmoset benchmarks demonstrate the feasibility of our method and highlight key challenges, including emotional consistency and linguistic ambiguity, paving the way for future research.
- Abstract(参考訳): 本稿では,VoxStudioを提案する。VoxStudioは,言語情報とパラ言語情報を協調的に整合させて,音声記述から直接表現的画像を生成する,最初の統一・エンドツーエンド音声画像モデルである。
その中核は音声情報ボトルネック(SIB)モジュールで、生の音声をコンパクトな意味トークンに圧縮し、韻律と感情的なニュアンスを保存する。
これらのトークンを直接操作することで、VoxStudioは追加の音声からテキストへのシステムの必要性を排除し、テキスト、例えばトーン、感情以外の隠された詳細を無視することが多い。
VoxEmosetもリリースしました。VoxEmosetは、高度なTSエンジンによって構築された、リッチで表現豊かな発話を生成するための大規模ペアの感情的音声画像データセットです。
SpokenCOCO、Flickr8kAudio、VoxEmosetベンチマークの総合的な実験は、我々の方法の有効性を示し、感情的一貫性や言語的あいまいさなどの重要な課題を強調し、将来の研究への道を開く。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations [12.891344121936902]
本稿では,高ETTSデータセットであるStoryTTSについて紹介する。
StoryTTSでは,言語学や修辞学などを通じて,5つの異なる次元を含む音声関連テキスト表現を分析・定義する。
得られたコーパスは、正確なテキスト書き起こしとリッチテキスト表現性アノテーションを備えた61時間連続かつ高韻律音声を含む。
論文 参考訳(メタデータ) (2024-04-23T11:41:35Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。