Fugu-MT 論文翻訳(概要): A Novel Face-tracking Mouth Controller and its Application to Interacting with Bioacoustic Models

論文の概要: A Novel Face-tracking Mouth Controller and its Application to Interacting with Bioacoustic Models

arxiv url: http://arxiv.org/abs/2010.03265v1
Date: Wed, 7 Oct 2020 08:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 00:32:38.934801
Title: A Novel Face-tracking Mouth Controller and its Application to Interacting with Bioacoustic Models
Title（参考訳）: 新しい顔追跡マウス制御器とその生体音響モデルとの相互作用への応用
Authors: Gamhewage C. de Silva, Tamara Smyth, Michael J. Lyons
Abstract要約: 本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We describe a simple, computationally light, real-time system for tracking the lower face and extracting information about the shape of the open mouth from a video sequence. The system allows unencumbered control of audio synthesis modules by the action of the mouth. We report work in progress to use the mouth controller to interact with a physical model of sound production by the avian syrinx.
Abstract（参考訳）: 本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。鳥のシリンクスによる音生成の物理モデルと対話するためにマウスコントローラを使用する作業が進行中である。

関連論文リスト

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。 SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文参考訳（メタデータ） (2025-04-08T00:22:16Z)
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳（メタデータ） (2025-02-17T07:29:36Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文参考訳（メタデータ） (2024-03-02T04:07:24Z)
CiwaGAN: Articulatory information exchange [15.944474482218334]
人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。本稿では、教師なし調音モデルと教師なし情報交換モデルを組み合わせた人間の音声言語習得モデルであるCiwaGANを紹介する。
論文参考訳（メタデータ） (2023-09-14T17:10:39Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文参考訳（メタデータ） (2022-05-30T04:52:58Z)
Talking Head Generation Driven by Speech-Related Facial Action Units and Audio- Based on Multimodal Representation Fusion [30.549120935873407]
トーキングヘッド生成は、任意の顔画像と対応する音声クリップを入力して、リップ同期音声ヘッドビデオを合成する。既存の方法は、相互モーダル情報の相互作用と関係を無視するだけでなく、口筋の局所的な駆動情報も無視する。拡張された非因果的時間的畳み込み自己保持ネットワークを含む新しい生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-27T08:05:24Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
SPEAK WITH YOUR HANDS Using Continuous Hand Gestures to control Articulatory Speech Synthesizer [9.260186030255081]
我々は18個のセンサーを搭載したCyberglove IIを使って手首と個々の指の運動情報を収集する。上口蓋を固定とし,スプラインモデルを声道の動的下面(舌)として考慮し,ピンクトロンボーンに供給される1次元領域関数値を算出する。
論文参考訳（メタデータ） (2021-02-02T17:49:51Z)
Designing, Playing, and Performing with a Vision-based Mouth Interface [0.0]
Mouthesizer(モーセサイザー)は、口の開口部から形状パラメータを抽出するために、頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを使用するシステムである。各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏を記述した。
論文参考訳（メタデータ） (2020-10-07T06:47:42Z)
VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文参考訳（メタデータ） (2020-03-30T16:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。