論文の概要: Emotional Video to Audio Transformation Using Deep Recurrent Neural
Networks and a Neuro-Fuzzy System
- arxiv url: http://arxiv.org/abs/2004.02113v1
- Date: Sun, 5 Apr 2020 07:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 11:59:15.867482
- Title: Emotional Video to Audio Transformation Using Deep Recurrent Neural
Networks and a Neuro-Fuzzy System
- Title(参考訳): ディープリカレントニューラルネットワークとニューロファジィシステムを用いた音声への感情映像変換
- Authors: Gwenaelle Cunha Sergio and Minho Lee
- Abstract要約: 現在のアプローチは、音楽生成ステップにおけるビデオの感情的特徴を見落としている。
本稿では,適応型ニューロファジィ推論システムを用いて映像の感情を予測するハイブリッドディープニューラルネットワークを提案する。
我々のモデルは、両方のデータセットのビューアーから類似した感情を引き出すシーンにマッチする音声を効果的に生成できる。
- 参考スコア(独自算出の注目度): 8.900866276512364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating music with emotion similar to that of an input video is a very
relevant issue nowadays. Video content creators and automatic movie directors
benefit from maintaining their viewers engaged, which can be facilitated by
producing novel material eliciting stronger emotions in them. Moreover, there's
currently a demand for more empathetic computers to aid humans in applications
such as augmenting the perception ability of visually and/or hearing impaired
people. Current approaches overlook the video's emotional characteristics in
the music generation step, only consider static images instead of videos, are
unable to generate novel music, and require a high level of human effort and
skills. In this study, we propose a novel hybrid deep neural network that uses
an Adaptive Neuro-Fuzzy Inference System to predict a video's emotion from its
visual features and a deep Long Short-Term Memory Recurrent Neural Network to
generate its corresponding audio signals with similar emotional inkling. The
former is able to appropriately model emotions due to its fuzzy properties, and
the latter is able to model data with dynamic time properties well due to the
availability of the previous hidden state information. The novelty of our
proposed method lies in the extraction of visual emotional features in order to
transform them into audio signals with corresponding emotional aspects for
users. Quantitative experiments show low mean absolute errors of 0.217 and
0.255 in the Lindsey and DEAP datasets respectively, and similar global
features in the spectrograms. This indicates that our model is able to
appropriately perform domain transformation between visual and audio features.
Based on experimental results, our model can effectively generate audio that
matches the scene eliciting a similar emotion from the viewer in both datasets,
and music generated by our model is also chosen more often.
- Abstract(参考訳): 入力ビデオと同じような感情で音楽を生成することは、今日では非常に関連する問題である。
映像コンテンツ制作者や自動映画監督は、視聴者のエンゲージメントを維持することで恩恵を受ける。
さらに、視覚障害者や聴覚障害者の知覚能力の向上など、人間を支援するための共感型コンピュータが現在求められている。
現在のアプローチでは、音楽生成ステップにおけるビデオの感情的特徴を見落とし、ビデオではなく静的なイメージのみを考慮し、新しい音楽を生成できず、高いレベルの人間の努力とスキルを必要とする。
本研究では,映像の視覚的特徴から映像の感情を予測する適応型ニューロファジー推論システムと,それに対応する音響信号を生成するディープ・ショート・短期記憶リカレント・ニューラル・ネットワークを用いたハイブリッド・ディープ・ニューラルネットを提案する。
前者はファジィ特性のために感情を適切にモデル化することができ、後者は以前の隠れた状態情報が利用できるため、動的に時間特性を持つデータを十分にモデル化することができる。
提案手法の目新しさは,視覚的な感情的特徴を抽出し,ユーザの感情的側面に対応する音声信号に変換することにある。
定量的実験により、リンゼイデータセットとDEAPデータセットでそれぞれ0.217と0.255の平均絶対誤差が低く、分光図でも同様のグローバルな特徴が示されている。
これは,視覚特徴と音声特徴のドメイン変換を適切に行うことができることを示す。
実験結果に基づき,両データセットの視聴者から類似した感情を引き出すシーンにマッチする音声を効果的に生成でき,モデルによって生成された音楽もより頻繁に選択できる。
関連論文リスト
- Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Music Emotion Prediction Using Recurrent Neural Networks [8.867897390286815]
本研究は,聴取者の感情状態に合うように音楽を調整することで,音楽レコメンデーションシステムを強化し,治療介入を支援することを目的とする。
ラッセルの感情クアドラントを用いて、音楽を4つの異なる感情領域に分類し、これらのカテゴリーを正確に予測できるモデルを開発する。
我々のアプローチは、Librosaを使って包括的なオーディオ機能を抽出し、標準RNN、双方向RNN、Long Short-Term Memory(LSTM)ネットワークなど、さまざまなリカレントニューラルネットワークアーキテクチャを適用します。
論文 参考訳(メタデータ) (2024-05-10T18:03:20Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Emotion recognition in talking-face videos using persistent entropy and
neural networks [0.5156484100374059]
私たちは、会話ビデオから感情を認識し、分類するための主要なツールとして、永続的エントロピーとニューラルネットワークを使用します。
ビデオの小さな変化は、署名に小さな変化をもたらすことを証明している。
これらのトポロジカルなシグネチャは、ニューラル・ネットワークに、中立、穏やか、幸せ、悲しみ、怒り、恐怖、嫌悪、驚きの感情を区別するために使用される。
論文 参考訳(メタデータ) (2021-10-26T11:08:56Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。