論文の概要: Predicting Video features from EEG and Vice versa
- arxiv url: http://arxiv.org/abs/2005.11235v1
- Date: Sat, 16 May 2020 20:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:14:56.987724
- Title: Predicting Video features from EEG and Vice versa
- Title(参考訳): EEGとViceの動画機能予測
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik
- Abstract要約: 深層学習モデルを用いて顔や唇のビデオフレームから脳波の特徴を予測することを検討する。
以上の結果から,脳波の特徴から高品質な顔・唇映像を合成する第一歩が示された。
- 参考スコア(独自算出の注目度): 3.5786621294068377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we explore predicting facial or lip video features from
electroencephalography (EEG) features and predicting EEG features from recorded
facial or lip video frames using deep learning models. The subjects were asked
to read out loud English sentences shown to them on a computer screen and their
simultaneous EEG signals and facial video frames were recorded. Our model was
able to generate very broad characteristics of the facial or lip video frame
from input EEG features. Our results demonstrate the first step towards
synthesizing high quality facial or lip video from recorded EEG features. We
demonstrate results for a data set consisting of seven subjects.
- Abstract(参考訳): 本稿では,脳波(eeg)特徴から顔・唇映像の特徴を予測し,深層学習モデルを用いた顔・唇映像フレームから脳波特徴を推定する。
被験者はコンピュータ画面に表示された大きな英語文を読み取るよう求められ、同時に脳波信号と顔ビデオフレームが記録された。
私たちのモデルは、入力脳波の特徴から、顔や唇の映像フレームの非常に広い特性を生成できた。
以上の結果から,脳波の特徴から高品質な顔や唇映像を合成する第一歩が示された。
7つの被験者からなるデータセットの結果を示す。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Facial Expression Video Generation Based-On Spatio-temporal
Convolutional GAN: FEV-GAN [1.279257604152629]
6つの基本表情の映像を生成するための新しいアプローチを提案する。
提案手法は,同一ネットワークにおけるコンテンツと動作の両方をモデル化することが知られている時空間的コナールGANをベースとしている。
コードと事前訓練されたモデルは間もなく公開される予定だ。
論文 参考訳(メタデータ) (2022-10-20T11:54:32Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - An EEG-Based Multi-Modal Emotion Database with Both Posed and Authentic
Facial Actions for Emotion Analysis [13.448832812713501]
本稿では,表情,行動単位,脳波を同時に収集し,新しいデータベースを構築することを提案する。
データベースは研究コミュニティに公開され、自動感情認識のための最先端の技術を推進します。
論文 参考訳(メタデータ) (2022-03-29T18:02:12Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Predicting Different Acoustic Features from EEG and towards direct
synthesis of Audio Waveform from EEG [3.5786621294068377]
著者らは脳波(EEG)の特徴から音声を合成するための予備的な結果を提供した。
深層学習モデルは生の脳波波形信号を入力とし、直接出力として音声波形を生成する。
本稿では,音声知覚・生成過程における非侵襲的脳波信号と音響的特徴の関連性について述べる。
論文 参考訳(メタデータ) (2020-05-29T05:50:03Z) - Speech Synthesis using EEG [4.312746668772343]
我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。
本稿では,脳波を用いた音声合成結果について述べる。
論文 参考訳(メタデータ) (2020-02-22T03:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。