Fugu-MT 論文翻訳(概要): Designing, Playing, and Performing with a Vision-based Mouth Interface

論文の概要: Designing, Playing, and Performing with a Vision-based Mouth Interface

arxiv url: http://arxiv.org/abs/2010.03213v1
Date: Wed, 7 Oct 2020 06:47:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 00:21:41.089810
Title: Designing, Playing, and Performing with a Vision-based Mouth Interface
Title（参考訳）: 視覚ベースのモースインタフェースによる設計・演奏・演奏
Authors: Michael J. Lyons, Michael Haehnel, Nobuji Tetsutani
Abstract要約: Mouthesizer(モーセサイザー)は、口の開口部から形状パラメータを抽出するために、頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを使用するシステムである。各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏を記述した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The role of the face and mouth in speech production as well asnon-verbal communication suggests the use of facial action tocontrol musical sound. Here we document work on theMouthesizer, a system which uses a headworn miniaturecamera and computer vision algorithm to extract shapeparameters from the mouth opening and output these as MIDIcontrol changes. We report our experience with variousgesture-to-sound mappings and musical applications, anddescribe a live performance which used the Mouthesizerinterface.
Abstract（参考訳）: 音声生成における顔と口の役割と非言語コミュニケーションは、音楽音を制御するために顔の動きを用いることを示唆している。本稿では,頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを用いて開口部から形状パラメータを抽出し,MIDI制御変化として出力するシステムであるTheMouthesizerについて述べる。各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏について述べる。

関連論文リスト

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。 SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文参考訳（メタデータ） (2025-04-08T00:22:16Z)
PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation [30.404258000632986]
唇音のアライメント制御は話し方や唇の動きのスケールといった要素に焦点を当てるが、感情制御は現実的な感情表現の生成に重点を置いている。暗黙的なキーポイント変形による唇音のアライメントと感情制御を可能にする新しいフレームワークPC-Talkを提案する。本手法は,HDTFとMEADの両方のデータセット上で,優れた制御能力を示し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-03-18T14:35:48Z)
GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文参考訳（メタデータ） (2024-11-27T18:54:08Z)
LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文参考訳（メタデータ） (2024-07-26T08:30:06Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-05T02:54:46Z)
EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文参考訳（メタデータ） (2023-12-31T02:25:41Z)
Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。 DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-04-18T12:36:15Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文参考訳（メタデータ） (2022-11-02T07:17:49Z)
A Novel Face-tracking Mouth Controller and its Application to Interacting with Bioacoustic Models [0.0]
本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。
論文参考訳（メタデータ） (2020-10-07T08:36:43Z)
Sonification of Facial Actions for Musical Expression [7.090165638014331]
社会的相互作用や非言語コミュニケーションにおける顔の中心的な役割は、音楽的表現の手段としての顔行動を探究することを示唆している。本稿では,顔検出アルゴリズムと光フローアルゴリズムを用いて,顔の動きと音声合成を地形特異的に関連付ける新しいシステムの設計,実装,および予備研究について述べる。
論文参考訳（メタデータ） (2020-10-07T07:04:07Z)
MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文参考訳（メタデータ） (2020-04-27T17:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。