論文の概要: Generative Adversarial Networks in Human Emotion Synthesis:A Review
- arxiv url: http://arxiv.org/abs/2010.15075v2
- Date: Sat, 7 Nov 2020 11:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:14:39.547099
- Title: Generative Adversarial Networks in Human Emotion Synthesis:A Review
- Title(参考訳): ヒト感情合成における生成的敵ネットワーク:レビュー
- Authors: Noushin Hajarolasvadi, Miguel Arjona Ram\'irez and Hasan Demirel
- Abstract要約: 深層生成モデルは、コンピュータビジョンや信号処理といった様々な研究分野において、新たな話題となっている。
影響コンピューティングは、過去20年間に生成モデルの急速な派生を観察した。
表情合成, 音声感情合成, 音声視覚(クロスモーダル)感情合成を概観する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing realistic data samples is of great value for both academic and
industrial communities. Deep generative models have become an emerging topic in
various research areas like computer vision and signal processing. Affective
computing, a topic of a broad interest in computer vision society, has been no
exception and has benefited from generative models. In fact, affective
computing observed a rapid derivation of generative models during the last two
decades. Applications of such models include but are not limited to emotion
recognition and classification, unimodal emotion synthesis, and cross-modal
emotion synthesis. As a result, we conducted a review of recent advances in
human emotion synthesis by studying available databases, advantages, and
disadvantages of the generative models along with the related training
strategies considering two principal human communication modalities, namely
audio and video. In this context, facial expression synthesis, speech emotion
synthesis, and the audio-visual (cross-modal) emotion synthesis is reviewed
extensively under different application scenarios. Gradually, we discuss open
research problems to push the boundaries of this research area for future
works.
- Abstract(参考訳): リアルなデータサンプルを合成することは、学術と産業の両方にとって大きな価値がある。
コンピュータビジョンや信号処理など、さまざまな研究分野において、深層生成モデルが注目されている。
コンピュータビジョン社会における幅広い関心のトピックであるAffective Computingは例外ではなく、生成モデルの恩恵を受けている。
実際、情緒計算は過去20年間で生成モデルの急速な導出を観察した。
このようなモデルの適用には、感情認識と分類、単調な感情合成、モーダルな感情合成が含まれる。
その結果,音声とビデオの2つの主要なコミュニケーションモダリティを考慮したトレーニング戦略とともに,生成モデルの利用可能なデータベース,アドバンテージ,デメリットを考察し,人間の感情合成の最近の進歩を概観した。
この文脈では、表情合成、音声感情合成、音声視覚(クロスモーダル)感情合成が様々な応用シナリオで広く検討されている。
今後,研究領域の境界を押し上げるために,オープン研究の課題を徐々に議論する。
関連論文リスト
- Generative Technology for Human Emotion Recognition: A Scope Review [11.578408396744237]
本調査は,2024年6月までに320以上の研究論文を総合的に分析し,既存の文献のギャップを埋めることを目的としている。
異なる生成モデルと一般的に使用されるデータセットの数学的原理を導入する。
様々なモダリティに基づいて、生成技術がどのように感情認識に対処するかを詳細に分析する。
論文 参考訳(メタデータ) (2024-07-04T05:22:55Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Do Stochastic Parrots have Feelings Too? Improving Neural Detection of
Synthetic Text via Emotion Recognition [16.31088877974614]
生成AIは、高性能な合成テキスト生成技術に注目を集めている。
生成AIの最近の進歩は、高性能な合成テキスト生成技術に注目を向けている。
心理学的な研究からインスピレーションを得て、人々は感情によって駆動され、構成するテキストに感情をエンコードすることができることを示唆する。
論文 参考訳(メタデータ) (2023-10-24T15:07:35Z) - ORES: Open-vocabulary Responsible Visual Synthesis [104.7572323359984]
我々は、新しいタスクであるオープン語彙対応視覚合成(ORES)を定式化し、そこで合成モデルは、禁止された視覚概念を避けることができる。
この問題に対処するため,我々はTIN(Two-stage Intervention)フレームワークを提案する。
1)大規模言語モデル(LLM)による学習可能な命令による書き直し,2)拡散モデルへの迅速な介入による合成を行うことで,概念を避けながら可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
論文 参考訳(メタデータ) (2023-08-26T06:47:34Z) - A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文 参考訳(メタデータ) (2023-01-13T00:20:05Z) - An Overview of Affective Speech Synthesis and Conversion in the Deep
Learning Era [39.91844543424965]
表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。
近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。
ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
論文 参考訳(メタデータ) (2022-10-06T13:55:59Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文 参考訳(メタデータ) (2021-10-11T00:45:07Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Modeling emotion for human-like behavior in future intelligent robots [0.913755431537592]
我々は、神経科学が芸術の現在の状態をいかに前進させるかを示す。
ロボットモデルにおける感情関連プロセスのより強力な統合は、人間のような行動の設計に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2020-09-30T17:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。