論文の概要: An Overview of Affective Speech Synthesis and Conversion in the Deep
Learning Era
- arxiv url: http://arxiv.org/abs/2210.03538v1
- Date: Thu, 6 Oct 2022 13:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 15:12:05.598360
- Title: An Overview of Affective Speech Synthesis and Conversion in the Deep
Learning Era
- Title(参考訳): 深層学習における感情音声合成と変換の概観
- Authors: Andreas Triantafyllopoulos, Bj\"orn W. Schuller, G\"ok\c{c}e \.Iymen,
Metin Sezgin, Xiangheng He, Zijiang Yang, Panagiotis Tzirakis, Shuo Liu,
Silvan Mertes, Elisabeth Andr\'e, Ruibo Fu, Jianhua Tao
- Abstract要約: 表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。
近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。
ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
- 参考スコア(独自算出の注目度): 39.91844543424965
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech is the fundamental mode of human communication, and its synthesis has
long been a core priority in human-computer interaction research. In recent
years, machines have managed to master the art of generating speech that is
understandable by humans. But the linguistic content of an utterance
encompasses only a part of its meaning. Affect, or expressivity, has the
capacity to turn speech into a medium capable of conveying intimate thoughts,
feelings, and emotions -- aspects that are essential for engaging and
naturalistic interpersonal communication. While the goal of imparting
expressivity to synthesised utterances has so far remained elusive, following
recent advances in text-to-speech synthesis, a paradigm shift is well under way
in the fields of affective speech synthesis and conversion as well. Deep
learning, as the technology which underlies most of the recent advances in
artificial intelligence, is spearheading these efforts. In the present
overview, we outline ongoing trends and summarise state-of-the-art approaches
in an attempt to provide a comprehensive overview of this exciting field.
- Abstract(参考訳): 音声は人間のコミュニケーションの基本的なモードであり、その合成は人間とコンピュータの相互作用研究における中心的な優先事項である。
近年、機械は人間が理解できる音声を生成する技術を習得している。
しかし、発話の言語的内容は、その意味の一部しか含まない。
感情、あるいは表現力は、会話を、親密な思考、感情、感情を伝達できる媒体に変える能力を持っている。
音声合成に表現性を与えるという目標はこれまでも解明されてきたが、テキストから音声への合成の進歩に続いて、感情的音声合成や変換の分野においてもパラダイムシフトが進んでいる。
ディープラーニングは、人工知能の最近の進歩のほとんどを支える技術であり、これらの取り組みを先導している。
本稿では,このエキサイティングな分野を包括的に概観する試みとして,現在進行中のトレンドと最先端のアプローチの概要について概説する。
関連論文リスト
- Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。
また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文 参考訳(メタデータ) (2024-04-30T08:47:24Z) - Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation [0.6964027823688135]
現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
論文 参考訳(メタデータ) (2024-03-31T00:38:02Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Neural Speech Embeddings for Speech Synthesis Based on Deep Generative
Networks [27.64740032872726]
脳信号から音声合成が可能な脳音声合成技術について紹介する。
また, 音声処理中に神経生理学的活性化の基盤となる神経特徴と音声の埋め込みを包括的に分析した。
論文 参考訳(メタデータ) (2023-12-10T08:12:08Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文 参考訳(メタデータ) (2023-01-13T00:20:05Z) - Review of end-to-end speech synthesis technology based on deep learning [10.748200013505882]
研究の焦点はディープラーニングに基づくエンドツーエンド音声合成技術である。
主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。
本稿では、音声合成タスクに使用できる英語、中国語、その他の言語のオープンソース音声コーパスを要約する。
論文 参考訳(メタデータ) (2021-04-20T14:24:05Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。