論文の概要: AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation
- arxiv url: http://arxiv.org/abs/2509.00813v1
- Date: Sun, 31 Aug 2025 12:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.409493
- Title: AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation
- Title(参考訳): AImoclips: テキスト・ツー・ミュージック・ジェネレーションにおける感情の移動を評価するベンチマーク
- Authors: Gyehun Go, Satbyul Han, Ahyeon Choi, Eunjin Choi, Juhan Nam, Jeong Mi Park,
- Abstract要約: AImoclipsは、TTMシステムが人間のリスナーに意図した感情をいかに伝達するかを評価するためのベンチマークである。
私たちは6つの最先端のTTMシステムを使って1000以上の音楽クリップを生成しました。
その結果,商用システムでは意図したよりも楽観的な音楽が生成されがちであり,オープンソースシステムはその逆の演奏をする傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 14.348607828440196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-music (TTM) generation have enabled controllable and expressive music creation using natural language prompts. However, the emotional fidelity of TTM systems remains largely underexplored compared to human preference or text alignment. In this study, we introduce AImoclips, a benchmark for evaluating how well TTM systems convey intended emotions to human listeners, covering both open-source and commercial models. We selected 12 emotion intents spanning four quadrants of the valence-arousal space, and used six state-of-the-art TTM systems to generate over 1,000 music clips. A total of 111 participants rated the perceived valence and arousal of each clip on a 9-point Likert scale. Our results show that commercial systems tend to produce music perceived as more pleasant than intended, while open-source systems tend to perform the opposite. Emotions are more accurately conveyed under high-arousal conditions across all models. Additionally, all systems exhibit a bias toward emotional neutrality, highlighting a key limitation in affective controllability. This benchmark offers valuable insights into model-specific emotion rendering characteristics and supports future development of emotionally aligned TTM systems.
- Abstract(参考訳): テキスト・ツー・ミュージック(TTM)生成の最近の進歩は、自然言語のプロンプトを用いて制御可能で表現可能な音楽生成を可能にしている。
しかしながら、TTMシステムの感情的忠実度は、人間の嗜好やテキストアライメントと比べて明らかに未熟である。
本研究では、TTMシステムが人間のリスナーに意図した感情をいかに伝達するかを評価するためのベンチマークであるAImoclipsを紹介し、オープンソースモデルと商用モデルの両方をカバーする。
我々は,4つの4つの空間にまたがる12の感情意図を選択し,6つの最先端のTTMシステムを用いて1,000以上の音楽クリップを生成した。
被験者は合計111名であり,9点のQuatrt尺度で各クリップの有意差と覚醒度を評価した。
その結果,商用システムでは意図したよりも楽観的な音楽が生成されがちであり,オープンソースシステムはその逆の演奏をする傾向にあることがわかった。
感情はより正確に全てのモデルにまたがる高刺激条件下で伝達される。
さらに、すべてのシステムは感情的な中立性に対するバイアスを示し、感情的なコントロール可能性の鍵となる制限を強調している。
このベンチマークは、モデル固有の感情レンダリング特性に関する貴重な洞察を提供し、感情に整合したTTMシステムの将来の開発をサポートする。
関連論文リスト
- Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction [83.88591755871734]
EmoRAGは、SemEval-2025 Task 11, Subtask A: Multi-label Emotion Detectionのためのテキスト中の知覚感情を検出するように設計されたシステムである。
我々は、与えられたテキストスニペットから話者の知覚された感情を予測することに集中し、喜び、悲しみ、恐怖、怒り、驚き、嫌悪感などの感情をラベル付けする。
論文 参考訳(メタデータ) (2025-06-04T19:41:24Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [34.89118596727314]
制御可能な感情的TTSのための離散的感情と次元的感情を統一したニューラル言語モデルであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
UDDETTSはADV空間の3次元に沿って線形感情制御を統一し、より優れたエンドツーエンドの感情音声合成能力を示す。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。