論文の概要: Towards a practical lip-to-speech conversion system using deep neural
networks and mobile application frontend
- arxiv url: http://arxiv.org/abs/2104.14467v1
- Date: Thu, 29 Apr 2021 16:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:58:07.382400
- Title: Towards a practical lip-to-speech conversion system using deep neural
networks and mobile application frontend
- Title(参考訳): ディープニューラルネットワークとモバイルアプリケーションフロントエンドを用いた実用的な口唇変換システムの構築
- Authors: Frigyes Viktor Arthur and Tam\'as G\'abor Csap\'o
- Abstract要約: ディープニューラルネットワークのトレーニングと推論のためのバックエンドから構築されたシステムを提案し、モバイルアプリケーションとして前面に置きます。
トップ5の74%の分類精度は、モバイルアプリケーションユーザからのフィードバックと組み合わせられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Articulatory-to-acoustic (forward) mapping is a technique to predict speech
using various articulatory acquisition techniques as input (e.g. ultrasound
tongue imaging, MRI, lip video). The advantage of lip video is that it is
easily available and affordable: most modern smartphones have a front camera.
There are already a few solutions for lip-to-speech synthesis, but they mostly
concentrate on offline training and inference. In this paper, we propose a
system built from a backend for deep neural network training and inference and
a fronted as a form of a mobile application. Our initial evaluation shows that
the scenario is feasible: a top-5 classification accuracy of 74% is combined
with feedback from the mobile application user, making sure that the speaking
impaired might be able to communicate with this solution.
- Abstract(参考訳): 調音-音響(前方)マッピングは、様々な調音獲得技法を入力として(例えば)音声を予測する技術である。
超音波舌画像、MRI、唇ビデオ)。
lip videoの利点は、簡単に手頃で手頃な価格であることにある。
音声合成のソリューションはすでにいくつかあるが、主にオフライントレーニングと推論に集中している。
本稿では,ディープニューラルネットワークのトレーニングと推論のためのバックエンドから構築したシステムを提案する。
トップ5の分類精度74%は、モバイルアプリケーションユーザからのフィードバックと組み合わせることで、発話障害がこのソリューションと通信できることを確実にします。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using
Deep Neural Networks [18.968402215723]
ユーザの無声発話を検出するシステムを提案する。
提案システムは,ユーザの発話音声を使わずに発話内容を認識する。
また,音声認識の精度を向上させるために,ユーザが口頭の動きを調整できることも確認した。
論文 参考訳(メタデータ) (2023-03-03T07:46:35Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Egocentric Videoconferencing [86.88092499544706]
ビデオ会議は、価値ある非言語コミュニケーションと表情の手がかりを描写するが、通常は前面カメラを必要とする。
本稿では、スマートグラスに統合可能な低コストのウェアラブルエゴセントリックカメラセットを提案する。
私たちのゴールは、古典的なビデオ通話を模倣することであり、それゆえ、私たちはこのカメラの自我中心の視点を前向きのビデオに変えます。
論文 参考訳(メタデータ) (2021-07-07T09:49:39Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z) - Visual Speech Enhancement Without A Real Visual Stream [37.88869937166955]
現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いる最近の作品は、"オーディオオンリー"な方法で発話の質を向上させます。
音声駆動唇合成における最近の進歩を利用して,音声強調のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2020-12-20T06:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。