論文の概要: Designing, Playing, and Performing with a Vision-based Mouth Interface
- arxiv url: http://arxiv.org/abs/2010.03213v1
- Date: Wed, 7 Oct 2020 06:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:21:41.089810
- Title: Designing, Playing, and Performing with a Vision-based Mouth Interface
- Title(参考訳): 視覚ベースのモースインタフェースによる設計・演奏・演奏
- Authors: Michael J. Lyons, Michael Haehnel, Nobuji Tetsutani
- Abstract要約: Mouthesizer(モーセサイザー)は、口の開口部から形状パラメータを抽出するために、頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを使用するシステムである。
各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏を記述した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The role of the face and mouth in speech production as well asnon-verbal
communication suggests the use of facial action tocontrol musical sound. Here
we document work on theMouthesizer, a system which uses a headworn
miniaturecamera and computer vision algorithm to extract shapeparameters from
the mouth opening and output these as MIDIcontrol changes. We report our
experience with variousgesture-to-sound mappings and musical applications,
anddescribe a live performance which used the Mouthesizerinterface.
- Abstract(参考訳): 音声生成における顔と口の役割と非言語コミュニケーションは、音楽音を制御するために顔の動きを用いることを示唆している。
本稿では,頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを用いて開口部から形状パラメータを抽出し,MIDI制御変化として出力するシステムであるTheMouthesizerについて述べる。
各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏について述べる。
関連論文リスト
- LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - A Novel Face-tracking Mouth Controller and its Application to
Interacting with Bioacoustic Models [0.0]
本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。
このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。
論文 参考訳(メタデータ) (2020-10-07T08:36:43Z) - Sonification of Facial Actions for Musical Expression [7.090165638014331]
社会的相互作用や非言語コミュニケーションにおける顔の中心的な役割は、音楽的表現の手段としての顔行動を探究することを示唆している。
本稿では,顔検出アルゴリズムと光フローアルゴリズムを用いて,顔の動きと音声合成を地形特異的に関連付ける新しいシステムの設計,実装,および予備研究について述べる。
論文 参考訳(メタデータ) (2020-10-07T07:04:07Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。