論文の概要: An Overview of Affective Speech Synthesis and Conversion in the Deep
Learning Era
- arxiv url: http://arxiv.org/abs/2210.03538v1
- Date: Thu, 6 Oct 2022 13:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 15:12:05.598360
- Title: An Overview of Affective Speech Synthesis and Conversion in the Deep
Learning Era
- Title(参考訳): 深層学習における感情音声合成と変換の概観
- Authors: Andreas Triantafyllopoulos, Bj\"orn W. Schuller, G\"ok\c{c}e \.Iymen,
Metin Sezgin, Xiangheng He, Zijiang Yang, Panagiotis Tzirakis, Shuo Liu,
Silvan Mertes, Elisabeth Andr\'e, Ruibo Fu, Jianhua Tao
- Abstract要約: 表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。
近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。
ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
- 参考スコア(独自算出の注目度): 39.91844543424965
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech is the fundamental mode of human communication, and its synthesis has
long been a core priority in human-computer interaction research. In recent
years, machines have managed to master the art of generating speech that is
understandable by humans. But the linguistic content of an utterance
encompasses only a part of its meaning. Affect, or expressivity, has the
capacity to turn speech into a medium capable of conveying intimate thoughts,
feelings, and emotions -- aspects that are essential for engaging and
naturalistic interpersonal communication. While the goal of imparting
expressivity to synthesised utterances has so far remained elusive, following
recent advances in text-to-speech synthesis, a paradigm shift is well under way
in the fields of affective speech synthesis and conversion as well. Deep
learning, as the technology which underlies most of the recent advances in
artificial intelligence, is spearheading these efforts. In the present
overview, we outline ongoing trends and summarise state-of-the-art approaches
in an attempt to provide a comprehensive overview of this exciting field.
- Abstract(参考訳): 音声は人間のコミュニケーションの基本的なモードであり、その合成は人間とコンピュータの相互作用研究における中心的な優先事項である。
近年、機械は人間が理解できる音声を生成する技術を習得している。
しかし、発話の言語的内容は、その意味の一部しか含まない。
感情、あるいは表現力は、会話を、親密な思考、感情、感情を伝達できる媒体に変える能力を持っている。
音声合成に表現性を与えるという目標はこれまでも解明されてきたが、テキストから音声への合成の進歩に続いて、感情的音声合成や変換の分野においてもパラダイムシフトが進んでいる。
ディープラーニングは、人工知能の最近の進歩のほとんどを支える技術であり、これらの取り組みを先導している。
本稿では,このエキサイティングな分野を包括的に概観する試みとして,現在進行中のトレンドと最先端のアプローチの概要について概説する。
関連論文リスト
- PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis [68.73476738779628]
両モードアライメントと音声生成を組み合わせた2段階学習手法であるopenomniを提案する。
実験により、openomniは全言語、視覚言語、言語評価において一貫して改善されていることが示された。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。
また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文 参考訳(メタデータ) (2024-04-30T08:47:24Z) - Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation [0.6964027823688135]
現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
論文 参考訳(メタデータ) (2024-03-31T00:38:02Z) - Neural Speech Embeddings for Speech Synthesis Based on Deep Generative
Networks [27.64740032872726]
脳信号から音声合成が可能な脳音声合成技術について紹介する。
また, 音声処理中に神経生理学的活性化の基盤となる神経特徴と音声の埋め込みを包括的に分析した。
論文 参考訳(メタデータ) (2023-12-10T08:12:08Z) - Review of end-to-end speech synthesis technology based on deep learning [10.748200013505882]
研究の焦点はディープラーニングに基づくエンドツーエンド音声合成技術である。
主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。
本稿では、音声合成タスクに使用できる英語、中国語、その他の言語のオープンソース音声コーパスを要約する。
論文 参考訳(メタデータ) (2021-04-20T14:24:05Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。