論文の概要: Expressivity and Speech Synthesis
- arxiv url: http://arxiv.org/abs/2404.19363v1
- Date: Tue, 30 Apr 2024 08:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:54:33.949194
- Title: Expressivity and Speech Synthesis
- Title(参考訳): 表現性と音声合成
- Authors: Andreas Triantafyllopoulos, Björn W. Schuller,
- Abstract要約: われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。
また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
- 参考スコア(独自算出の注目度): 51.75420054449122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research. From the very beginning, the community has not only aimed to synthesise high-fidelity speech that accurately conveys the semantic meaning of an utterance, but also to colour it with inflections that cover the same range of affective expressions that humans are capable of. After many years of research, it appears that we are on the cusp of achieving this when it comes to single, isolated utterances. This unveils an abundance of potential avenues to explore when it comes to combining these single utterances with the aim of synthesising more complex, longer-term behaviours. In the present chapter, we outline the methodological advances that brought us so far and sketch out the ongoing efforts to reach that coveted next level of artificial expressivity. We also discuss the societal implications coupled with rapidly advancing expressive speech synthesis (ESS) technology and highlight ways to mitigate those risks and ensure the alignment of ESS capabilities with ethical norms.
- Abstract(参考訳): 会話能力を持つインスタントマシンは、人工知能(AI)研究を長年追求してきた。
当初から、コミュニティは、発話の意味を正確に伝達する高忠実な音声を合成することだけでなく、人間にできるような感情表現の範囲をカバーする屈折で色づけすることを目的としていた。
長年にわたる研究の末、私たちは単独で孤立した発話に関して、これを達成しようとしているようです。
これは、より複雑で長期的な振る舞いを合成することを目的として、これらの単一の発話を組み合わせることに関して、多くの潜在的な道が明らかにされている。
本章では, これまでの方法論の進歩を概説し, 次段階の人工表現性を実現するための継続的な取り組みについて概説する。
また、急速に進歩する表現型音声合成(ESS)技術と結びついた社会的含意についても論じ、これらのリスクを軽減し、倫理的規範とESS能力の整合性を確保する方法を強調した。
関連論文リスト
- Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations [8.107561045241445]
会話におけるマルチモーダル感情認識のための高効率長距離遅延関係認識グラフニューラルネットワーク(ELR-GNN)を提案する。
ELR-GNNはIEMOCAPとMELDのベンチマークで最先端のパフォーマンスを実現し、それぞれ実行時間を52%と35%削減した。
論文 参考訳(メタデータ) (2024-06-27T15:54:12Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - An Overview of Affective Speech Synthesis and Conversion in the Deep
Learning Era [39.91844543424965]
表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。
近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。
ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
論文 参考訳(メタデータ) (2022-10-06T13:55:59Z) - Emotion-aware Chat Machine: Automatic Emotional Response Generation for
Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-06T06:26:15Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Speech Synthesis as Augmentation for Low-Resource ASR [7.2244067948447075]
音声合成は低リソース音声認識の鍵となるかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
論文 参考訳(メタデータ) (2020-12-23T22:19:42Z) - Target Guided Emotion Aware Chat Machine [58.8346820846765]
意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-15T01:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。