論文の概要: AlignCap: Aligning Speech Emotion Captioning to Human Preferences
- arxiv url: http://arxiv.org/abs/2410.19134v1
- Date: Thu, 24 Oct 2024 20:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:55.892244
- Title: AlignCap: Aligning Speech Emotion Captioning to Human Preferences
- Title(参考訳): AlignCap: 人間の嗜好に配慮した音声感情のキャプション
- Authors: Ziqi Liang, Haoxiang Shi, Hanhui Chen,
- Abstract要約: 自然言語による音声感情の記述の方が効果的かもしれない。
既存のSECの手法はしばしば幻覚を発生させ、目に見えない音声の一般化を失う。
我々は,大言語モデル(LLM)に基づく音声の感情キャプションを人間の嗜好に適応させるAlignCapを提案する。
実験によると、AlignCapはZero-shot SECタスクの他の最先端メソッドよりもパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 2.3076690318595676
- License:
- Abstract: Speech Emotion Captioning (SEC) has gradually become an active research task. The emotional content conveyed through human speech are often complex, and classifying them into fixed categories may not be enough to fully capture speech emotions. Describing speech emotions through natural language may be a more effective approach. However, existing SEC methods often produce hallucinations and lose generalization on unseen speech. To overcome these problems, we propose AlignCap, which Aligning Speech Emotion Captioning to Human Preferences based on large language model (LLM) with two properties: 1) Speech-Text Alignment, which minimizing the divergence between the LLM's response prediction distributions for speech and text inputs using knowledge distillation (KD) Regularization. 2) Human Preference Alignment, where we design Preference Optimization (PO) Regularization to eliminate factuality and faithfulness hallucinations. We also extract emotional clues as a prompt for enriching fine-grained information under KD-Regularization. Experiments demonstrate that AlignCap presents stronger performance to other state-of-the-art methods on Zero-shot SEC task.
- Abstract(参考訳): 音声感情キャプション(SEC)は、次第に活発な研究課題になりつつある。
人間の発話を通して伝達される感情内容は複雑であり、それらを一定のカテゴリーに分類しても、音声の感情を完全に捉えるには不十分である。
自然言語を通して音声の感情を記述することは、より効果的なアプローチかもしれない。
しかし、既存のSECの手法は幻覚を生じさせ、目に見えない音声の一般化を失うことが多い。
これらの問題を克服するために,大言語モデル (LLM) に基づく音声感情キャプションを人間の嗜好に適応するAlignCapを提案する。
1) 知識蒸留(KD)正則化を用いた音声とテキストの入力に対するLLMの応答予測分布のばらつきを最小化する音声テキストアライメント。
2) 前提最適化 (PO) の規則化を設計し, 事実性や忠実性の幻覚を排除した。
また, KD-Regularization の下で, きめ細かい情報を豊かにするための手がかりとして, 情緒的手がかりを抽出する。
実験によると、AlignCapはZero-shot SECタスクの他の最先端メソッドよりもパフォーマンスが向上している。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - Speech Emotion Diarization: Which Emotion Appears When? [11.84193589275529]
音声感情のきめ細かい性質を反映した音声感情ダイアリゼーション(SED)を提案する。
話者ダイアリゼーションが「誰がいつ話すのか?」という問いに答えるのと同じように、音声感情ダイアリゼーションは「いつ感情が現れるのか?」という問いに答える。
論文 参考訳(メタデータ) (2023-06-22T15:47:36Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
論文 参考訳(メタデータ) (2022-12-20T12:02:40Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。