論文の概要: SPEAK WITH YOUR HANDS Using Continuous Hand Gestures to control
Articulatory Speech Synthesizer
- arxiv url: http://arxiv.org/abs/2102.01640v1
- Date: Tue, 2 Feb 2021 17:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 01:15:32.794205
- Title: SPEAK WITH YOUR HANDS Using Continuous Hand Gestures to control
Articulatory Speech Synthesizer
- Title(参考訳): 連続的な手振りで話し、調音音声シンセサイザーを制御する
- Authors: Pramit Saha, Debasish Ray Mohapatra, Sidney Fels
- Abstract要約: 我々は18個のセンサーを搭載したCyberglove IIを使って手首と個々の指の運動情報を収集する。
上口蓋を固定とし,スプラインモデルを声道の動的下面(舌)として考慮し,ピンクトロンボーンに供給される1次元領域関数値を算出する。
- 参考スコア(独自算出の注目度): 9.260186030255081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents our advancements in controlling an articulatory speech
synthesis engine, \textit{viz.}, Pink Trombone, with hand gestures. Our
interface translates continuous finger movements and wrist flexion into
continuous speech using vocal tract area-function based articulatory speech
synthesis. We use Cyberglove II with 18 sensors to capture the kinematic
information of the wrist and the individual fingers, in order to control a
virtual tongue. The coordinates and the bending values of the sensors are then
utilized to fit a spline tongue model that smoothens out the noisy values and
outliers. Considering the upper palate as fixed and the spline model as the
dynamically moving lower surface (tongue) of the vocal tract, we compute 1D
area functional values that are fed to the Pink Trombone, generating continuous
speech sounds. Therefore, by learning to manipulate one's wrist and fingers,
one can learn to produce speech sounds just through one's hands, without the
need for using the vocal tract.
- Abstract(参考訳): 本稿では,音声合成エンジンであるtextit{viz の制御の進歩について述べる。
Pink Trombone, with hand gestures.*, Pink Trombone。
声道領域機能に基づく音声合成による連続指の動きと手首屈曲を連続音声に変換する。
私たちは、仮想舌を制御するために、手首と個々の指の運動情報をキャプチャするために18のセンサーを備えたCyberglove IIを使用します。
センサーの座標と曲げ値は、ノイズの多い値と外れ値を滑らかにするスプライン舌モデルに適合するために利用されます。
上口蓋を固定とし,スプラインモデルを声道の動的下面(舌)として考慮し,Pink Tromboneに供給される1次元領域関数値を計算し,連続的な発声音を生成する。
したがって、手首と指を操作することを学ぶことによって、声道を使用する必要なしに、単に自分の手を通して音声音を生成することを学ぶことができます。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Ultra2Speech -- A Deep Learning Framework for Formant Frequency
Estimation and Tracking from Ultrasound Tongue Images [5.606679908174784]
本研究は,超音波(US)舌画像に基づく動脈-音響マッピング問題に対処する。
U2F(Ultrasound2Formant, Ultrasound2Formant, Ultrasound2Formant, U2F)Net)と呼ばれる、被験者のあごの下に置かれた米国の舌画像のマッピングに、新しいディープラーニングアーキテクチャを使用します。
論文 参考訳(メタデータ) (2020-06-29T20:42:11Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。