論文の概要: Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train
Humans in Lipreading at Scale
- arxiv url: http://arxiv.org/abs/2208.09796v1
- Date: Sun, 21 Aug 2022 03:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:11:39.735921
- Title: Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train
Humans in Lipreading at Scale
- Title(参考訳): 口唇読解のためのmoocに向けて - 口唇読解における人間の訓練のための合成音声ヘッドの利用-
- Authors: Aditya Agarwal, Bipasha Sen, Rudrabha Mukhopadhyay, Vinay Namboodiri,
C.V Jawahar
- Abstract要約: 難聴者の多くは、リップリーディングを日々のコミュニケーションの第一のモードとみなしている。
学習や改善のためのリソースを見つけることは、難しいことです。
そこで本稿では,最先端の対話型ビデオ生成ネットワークを用いたエンドツーエンド自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 31.848709928693662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many people with some form of hearing loss consider lipreading as their
primary mode of day-to-day communication. However, finding resources to learn
or improve one's lipreading skills can be challenging. This is further
exacerbated in COVID$19$ pandemic due to restrictions on direct interactions
with peers and speech therapists. Today, online MOOCs platforms like Coursera
and Udemy have become the most effective form of training for many kinds of
skill development. However, online lipreading resources are scarce as creating
such resources is an extensive process needing months of manual effort to
record hired actors. Because of the manual pipeline, such platforms are also
limited in the vocabulary, supported languages, accents, and speakers, and have
a high usage cost. In this work, we investigate the possibility of replacing
real human talking videos with synthetically generated videos. Synthetic data
can be used to easily incorporate larger vocabularies, variations in accent,
and even local languages, and many speakers. We propose an end-to-end automated
pipeline to develop such a platform using state-of-the-art talking heading
video generator networks, text-to-speech models, and computer vision
techniques. We then perform an extensive human evaluation using carefully
thought out lipreading exercises to validate the quality of our designed
platform against the existing lipreading platforms. Our studies concretely
point towards the potential of our approach for the development of a
large-scale lipreading MOOCs platform that can impact millions of people with
hearing loss.
- Abstract(参考訳): ある種の聴覚障害を持つ多くの人々は、リップリーディングを日々のコミュニケーションの第一のモードとみなしている。
しかし、リップリードスキルを習得または改善するためのリソースを見つけることは困難である。
新型コロナウイルス(COVID-19)のパンデミックでは、ピアやスピーチセラピストとの直接の交流が制限され、さらに悪化している。
今日では、courseraやudemyといったオンラインmoocsプラットフォームが、さまざまなスキル開発において最も効果的なトレーニング形式になっています。
しかし、このようなリソースを作成するには、何ヶ月もの手作業が必要であり、オンラインのリップリーダーリソースは乏しい。
手動パイプラインのため、このようなプラットフォームは語彙、サポート言語、アクセント、スピーカーにも制限されており、使用コストが高い。
本研究では,人間の会話映像を合成生成ビデオに置き換える可能性について検討する。
合成データは、より大きな語彙、アクセントのバリエーション、さらには地元の言語、そして多くの話者を組み込むのに利用できる。
本稿では,最先端の対話型音声生成ネットワーク,テキスト音声モデル,コンピュータビジョン技術を用いたエンドツーエンド自動パイプラインを提案する。
次に、慎重に検討したリップリーディング演習を用いて、既存のリップリーディングプラットフォームに対する設計プラットフォームの品質評価を行う。
本研究は, 何百万人もの難聴者に影響を与える大規模口唇読取型MOOCsプラットフォームの開発に向けたアプローチの可能性を示すものである。
関連論文リスト
- Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - TRAVID: An End-to-End Video Translation Framework [1.6131714685439382]
本稿では、音声言語を翻訳するだけでなく、翻訳された音声と話者の唇の動きを同期するエンドツーエンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
論文 参考訳(メタデータ) (2023-09-20T14:13:05Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z) - Towards a practical lip-to-speech conversion system using deep neural
networks and mobile application frontend [0.0]
ディープニューラルネットワークのトレーニングと推論のためのバックエンドから構築されたシステムを提案し、モバイルアプリケーションとして前面に置きます。
トップ5の74%の分類精度は、モバイルアプリケーションユーザからのフィードバックと組み合わせられる。
論文 参考訳(メタデータ) (2021-04-29T16:30:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。