Fugu-MT 論文翻訳(概要): Sonification of Facial Actions for Musical Expression

論文の概要: Sonification of Facial Actions for Musical Expression

arxiv url: http://arxiv.org/abs/2010.03223v1
Date: Wed, 7 Oct 2020 07:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 00:32:47.608360
Title: Sonification of Facial Actions for Musical Expression
Title（参考訳）: 音楽表現のための顔行動の音化
Authors: Mathias Funk, Kazuhiro Kuwabara, Michael J. Lyons
Abstract要約: 社会的相互作用や非言語コミュニケーションにおける顔の中心的な役割は、音楽的表現の手段としての顔行動を探究することを示唆している。本稿では,顔検出アルゴリズムと光フローアルゴリズムを用いて,顔の動きと音声合成を地形特異的に関連付ける新しいシステムの設計,実装,および予備研究について述べる。
参考スコア（独自算出の注目度）: 7.090165638014331
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The central role of the face in social interaction and non-verbal communication suggests we explore facial action as a means of musical expression. This paper presents the design, implementation, and preliminary studies of a novel system utilizing face detection and optic flow algorithms to associate facial movements with sound synthesis in a topographically specific fashion. We report on our experience with various gesture-to-sound mappings and applications, and describe our preliminary experiments at musical performance using the system.
Abstract（参考訳）: 社会的相互作用と非言語コミュニケーションにおける顔の中心的な役割は,音楽表現の手段としての表情行動を検討することにある。本稿では,顔検出アルゴリズムと光フローアルゴリズムを用いて,顔の動きと音声合成を地形特異的に関連付ける新しいシステムの設計,実装,および予備研究について述べる。各種のジェスチャー・音声マッピングと応用の経験を報告し,本システムを用いた音楽演奏における予備実験について述べる。

関連論文リスト

Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)
LandmarkGAN: Synthesizing Faces from Landmarks [43.53204737135101]
顔のランドマークに基づいた顔合成を入力として行う新しい手法であるLandmarkGANについて述べる。提案手法では,顔のランドマークの集合を異なる対象の新たな顔に変換することができるが,顔の表情や向きは同一である。
論文参考訳（メタデータ） (2020-10-31T13:27:21Z)
Designing, Playing, and Performing with a Vision-based Mouth Interface [0.0]
Mouthesizer(モーセサイザー)は、口の開口部から形状パラメータを抽出するために、頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを使用するシステムである。各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏を記述した。
論文参考訳（メタデータ） (2020-10-07T06:47:42Z)
Speech Driven Talking Face Generation from a Single Image and an Emotion Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文参考訳（メタデータ） (2020-08-08T20:46:31Z)
Comprehensive Facial Expression Synthesis using Human-Interpretable Language [33.11402372756348]
言語に基づく表情記述から新しい表情合成モデルを提案する。本手法は,詳細な表情で顔画像の合成を行う。さらに, 顔の特徴に言語特徴を効果的に埋め込むことで, 個々の単語を制御し, 顔の動きを処理できる。
論文参考訳（メタデータ） (2020-07-16T07:28:25Z)
MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文参考訳（メタデータ） (2020-04-27T17:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。