論文の概要: A Novel Face-tracking Mouth Controller and its Application to
Interacting with Bioacoustic Models
- arxiv url: http://arxiv.org/abs/2010.03265v1
- Date: Wed, 7 Oct 2020 08:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:32:38.934801
- Title: A Novel Face-tracking Mouth Controller and its Application to
Interacting with Bioacoustic Models
- Title(参考訳): 新しい顔追跡マウス制御器とその生体音響モデルとの相互作用への応用
- Authors: Gamhewage C. de Silva, Tamara Smyth, Michael J. Lyons
- Abstract要約: 本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。
このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a simple, computationally light, real-time system for tracking
the lower face and extracting information about the shape of the open mouth
from a video sequence. The system allows unencumbered control of audio
synthesis modules by the action of the mouth. We report work in progress to use
the mouth controller to interact with a physical model of sound production by
the avian syrinx.
- Abstract(参考訳): 本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。
このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。
鳥のシリンクスによる音生成の物理モデルと対話するためにマウスコントローラを使用する作業が進行中である。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - CiwaGAN: Articulatory information exchange [15.944474482218334]
人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。
本稿では、教師なし調音モデルと教師なし情報交換モデルを組み合わせた人間の音声言語習得モデルであるCiwaGANを紹介する。
論文 参考訳(メタデータ) (2023-09-14T17:10:39Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Talking Head Generation Driven by Speech-Related Facial Action Units and
Audio- Based on Multimodal Representation Fusion [30.549120935873407]
トーキングヘッド生成は、任意の顔画像と対応する音声クリップを入力して、リップ同期音声ヘッドビデオを合成する。
既存の方法は、相互モーダル情報の相互作用と関係を無視するだけでなく、口筋の局所的な駆動情報も無視する。
拡張された非因果的時間的畳み込み自己保持ネットワークを含む新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T08:05:24Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - SPEAK WITH YOUR HANDS Using Continuous Hand Gestures to control
Articulatory Speech Synthesizer [9.260186030255081]
我々は18個のセンサーを搭載したCyberglove IIを使って手首と個々の指の運動情報を収集する。
上口蓋を固定とし,スプラインモデルを声道の動的下面(舌)として考慮し,ピンクトロンボーンに供給される1次元領域関数値を算出する。
論文 参考訳(メタデータ) (2021-02-02T17:49:51Z) - Designing, Playing, and Performing with a Vision-based Mouth Interface [0.0]
Mouthesizer(モーセサイザー)は、口の開口部から形状パラメータを抽出するために、頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを使用するシステムである。
各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏を記述した。
論文 参考訳(メタデータ) (2020-10-07T06:47:42Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。