Fugu-MT 論文翻訳(概要): An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era

論文の概要: An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era

arxiv url: http://arxiv.org/abs/2210.03538v1
Date: Thu, 6 Oct 2022 13:55:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 15:12:05.598360
Title: An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era
Title（参考訳）: 深層学習における感情音声合成と変換の概観
Authors: Andreas Triantafyllopoulos, Bj\"orn W. Schuller, G\"ok\c{c}e \.Iymen, Metin Sezgin, Xiangheng He, Zijiang Yang, Panagiotis Tzirakis, Shuo Liu, Silvan Mertes, Elisabeth Andr\'e, Ruibo Fu, Jianhua Tao
Abstract要約: 表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
参考スコア（独自算出の注目度）: 39.91844543424965
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Speech is the fundamental mode of human communication, and its synthesis has long been a core priority in human-computer interaction research. In recent years, machines have managed to master the art of generating speech that is understandable by humans. But the linguistic content of an utterance encompasses only a part of its meaning. Affect, or expressivity, has the capacity to turn speech into a medium capable of conveying intimate thoughts, feelings, and emotions -- aspects that are essential for engaging and naturalistic interpersonal communication. While the goal of imparting expressivity to synthesised utterances has so far remained elusive, following recent advances in text-to-speech synthesis, a paradigm shift is well under way in the fields of affective speech synthesis and conversion as well. Deep learning, as the technology which underlies most of the recent advances in artificial intelligence, is spearheading these efforts. In the present overview, we outline ongoing trends and summarise state-of-the-art approaches in an attempt to provide a comprehensive overview of this exciting field.
Abstract（参考訳）: 音声は人間のコミュニケーションの基本的なモードであり、その合成は人間とコンピュータの相互作用研究における中心的な優先事項である。近年、機械は人間が理解できる音声を生成する技術を習得している。しかし、発話の言語的内容は、その意味の一部しか含まない。感情、あるいは表現力は、会話を、親密な思考、感情、感情を伝達できる媒体に変える能力を持っている。音声合成に表現性を与えるという目標はこれまでも解明されてきたが、テキストから音声への合成の進歩に続いて、感情的音声合成や変換の分野においてもパラダイムシフトが進んでいる。ディープラーニングは、人工知能の最近の進歩のほとんどを支える技術であり、これらの取り組みを先導している。本稿では,このエキサイティングな分野を包括的に概観する試みとして,現在進行中のトレンドと最先端のアプローチの概要について概説する。

関連論文リスト

PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文参考訳（メタデータ） (2025-01-10T12:10:30Z)
SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文参考訳（メタデータ） (2024-09-17T02:36:10Z)
Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文参考訳（メタデータ） (2024-09-13T18:28:12Z)
Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文参考訳（メタデータ） (2024-04-30T08:47:24Z)
Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation [0.6964027823688135]
現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
論文参考訳（メタデータ） (2024-03-31T00:38:02Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Neural Speech Embeddings for Speech Synthesis Based on Deep Generative Networks [27.64740032872726]
脳信号から音声合成が可能な脳音声合成技術について紹介する。また, 音声処理中に神経生理学的活性化の基盤となる神経特徴と音声の埋め込みを包括的に分析した。
論文参考訳（メタデータ） (2023-12-10T08:12:08Z)
A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文参考訳（メタデータ） (2023-01-13T00:20:05Z)
Review of end-to-end speech synthesis technology based on deep learning [10.748200013505882]
研究の焦点はディープラーニングに基づくエンドツーエンド音声合成技術である。主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。本稿では、音声合成タスクに使用できる英語、中国語、その他の言語のオープンソース音声コーパスを要約する。
論文参考訳（メタデータ） (2021-04-20T14:24:05Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。