論文の概要: EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses
- arxiv url: http://arxiv.org/abs/2604.26417v1
- Date: Wed, 29 Apr 2026 08:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.313721
- Title: EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses
- Title(参考訳): EmoTransCap: 言論における感情遷移を考慮した音声キャプションのためのデータセットとパイプライン
- Authors: Shuhao Xu, Yifan Hu, Jingjing Wu, Zhihao Du, Zheng Lian, Rui Liu,
- Abstract要約: 本研究では、時間的感情動態と談話レベルの音声記述を統合するパラダイムである感情遷移対応音声キャプション(EmoTransCap)を提案する。
これは、談話レベルの感情遷移を捉えるために明示的に設計された最初の大規模データセットである。
また、言論レベルにおいて、制御可能で遷移対応の感情音声合成システムを導入する。
- 参考スコア(独自算出の注目度): 25.739767606548313
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotion perception and adaptive expression are fundamental capabilities in human-agent interaction. While recent advances in speech emotion captioning (SEC) have improved fine-grained emotional modeling, existing systems remain limited to static, single-emotion characterization within isolated sentences, neglecting dynamic emotional transitions at the discourse level. To address this gap, we propose Emotion Transition-Aware Speech Captioning (EmoTransCap), a paradigm that integrates temporal emotion dynamics with discourse-level speech description. To construct a dataset rich in emotion transitions while enabling scalable expansion, we design an automated pipeline for dataset creation. This is the first large-scale dataset explicitly designed to capture discourse-level emotion transitions. To generate semantically rich descriptions, we incorporate acoustic attributes and temporal cues from discourse-level speech. Our Multi-Task Emotion Transition Recognition (MTETR) model performs joint emotion transition detection and diarization. Leveraging the semantic analysis capabilities of LLMs, we produce two annotation versions: descriptive and instruction-oriented. These data and annotations offer a valuable resource for advancing emotion perception and emotional expressiveness. The dataset enables speech captions that capture emotional transitions, facilitating temporal-dynamic and fine-grained emotion understanding. We also introduce a controllable, transition-aware emotional speech synthesis system at the discourse level, enhancing anthropomorphic emotional expressiveness and supporting emotionally intelligent conversational agents.
- Abstract(参考訳): 感情知覚と適応表現は、人間とエージェントの相互作用の基本的な機能である。
音声感情キャプション(SEC)の最近の進歩は、きめ細かな感情モデリングを改善しているが、既存のシステムは、言論レベルでの動的な感情遷移を無視しながら、孤立した文内の静的な単感情的特徴に限られている。
このギャップに対処するために、言論レベルの音声記述と時間的感情力学を統合するパラダイムである感情遷移認識音声キャプション(EmoTransCap)を提案する。
スケーラブルな拡張を可能にしつつ、感情遷移に富んだデータセットを構築するために、データセット作成のための自動パイプラインを設計する。
これは、談話レベルの感情遷移を捉えるために明示的に設計された最初の大規模データセットである。
意味的に豊かな記述を生成するために、談話レベルの音声から音響特性と時間的手がかりを組み込む。
我々のマルチタスク感情遷移認識(MTETR)モデルは,共同感情遷移検出とダイアリゼーションを行う。
LLMのセマンティック分析機能を活用することで、記述型と命令指向型の2つのアノテーションバージョンを生成する。
これらのデータとアノテーションは、感情の知覚と感情の表現性を促進するための貴重なリソースを提供する。
このデータセットは、感情の遷移を捉え、時間的ダイナミックできめ細かい感情理解を容易にする音声キャプションを可能にする。
また、言論レベルにおいて、制御可能な、トランジション対応の感情音声合成システムを導入し、人為的感情表現性を高め、感情的知的会話エージェントを支援する。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Prompt-Unseen-Emotion: Zero-shot Expressive Speech Synthesis with Prompt-LLM Contextual Knowledge for Mixed Emotions [38.122477830163255]
本稿では,感情誘導型プロンプト学習による未知の感情音声を生成するための,新しいプロンプト・アンザイム・感情(PUE)アプローチを提案する。
提案したPUEは、ゼロショット設定における未知の感情の表現的音声合成に成功している。
論文 参考訳(メタデータ) (2025-06-03T10:59:22Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。