論文の概要: A Multimodal German Dataset for Automatic Lip Reading Systems and
Transfer Learning
- arxiv url: http://arxiv.org/abs/2202.13403v1
- Date: Sun, 27 Feb 2022 17:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 13:32:41.974787
- Title: A Multimodal German Dataset for Automatic Lip Reading Systems and
Transfer Learning
- Title(参考訳): 自動読唇システムと転送学習のためのマルチモーダルドイツ語データセット
- Authors: Gerald Schwiebert, Cornelius Weber, Leyuan Qu, Henrique Siqueira,
Stefan Wermter
- Abstract要約: 我々は、ヘッセン議会の演説者の顔に関する25万の公開ビデオからなるデータセットGLips(ドイツ語のリップス)を提示する。
このフォーマットは英語のLRW(Lip Reading in the Wild)データセットと似ており、各ビデオは1ワードの興味を1.16秒の文脈で符号化している。
深層ニューラルネットワークを訓練することにより, 唇読解に言語に依存しない特徴があるかどうかを調べ, 唇読解モデルを改善するために, 異なる言語のデータセットを使うことができる。
- 参考スコア(独自算出の注目度): 18.862801476204886
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large datasets as required for deep learning of lip reading do not exist in
many languages. In this paper we present the dataset GLips (German Lips)
consisting of 250,000 publicly available videos of the faces of speakers of the
Hessian Parliament, which was processed for word-level lip reading using an
automatic pipeline. The format is similar to that of the English language LRW
(Lip Reading in the Wild) dataset, with each video encoding one word of
interest in a context of 1.16 seconds duration, which yields compatibility for
studying transfer learning between both datasets. By training a deep neural
network, we investigate whether lip reading has language-independent features,
so that datasets of different languages can be used to improve lip reading
models. We demonstrate learning from scratch and show that transfer learning
from LRW to GLips and vice versa improves learning speed and performance, in
particular for the validation set.
- Abstract(参考訳): 唇読解の深層学習に必要な大規模なデータセットは、多くの言語に存在しない。
本稿では,Hessian Parliamentの話者の顔の25万件のビデオからなるGLips(ドイツ語のリップス)を,自動パイプラインを用いて単語レベルの唇読取のために処理した。
このフォーマットは英語のLRW(Lip Reading in the Wild)データセットと似ており、各ビデオは1ワードの興味を1.16秒の文脈で符号化し、両方のデータセット間の移動学習を研究するための互換性をもたらす。
深層ニューラルネットワークを訓練することにより、唇読解に言語に依存しない特徴があるかどうかを検証し、異なる言語のデータセットを用いて唇読解モデルを改善する。
そこで本研究では,学習をスクラッチからlrwからglipsへ移行することで,特に検証セットの学習速度と性能が向上することを示す。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset [2.594602184695942]
本稿では,ペルシャ語のための多目的音声視覚データセットを提案する。
約220時間の動画と1760人の話者で構成されている。
データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
論文 参考訳(メタデータ) (2023-01-21T05:13:30Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LRWR: Large-Scale Benchmark for Lip Reading in Russian language [0.0]
Lipreadingは、唇とその周辺領域の視覚的変形を分析して、ビデオから音声の内容を特定することを目的としている。
この分野での研究の大きな障害の1つは、様々な言語に対して適切なデータセットがないことである。
235 のクラスと135 の話者を含む LRWR という名のロシア語でリップリーディングを行うための自然分布ベンチマークを導入する。
論文 参考訳(メタデータ) (2021-09-14T13:51:19Z) - Lip reading using external viseme decoding [4.728757318184405]
本稿では,ビデオからキャラクタへの分割により,外部テキストデータ(viseme-to-character mapping)の活用方法を示す。
提案手法では,BBC-Oxford Lip Reading Sentences 2データセットの順序唇読取モデルと比較し,単語誤り率を4%改善した。
論文 参考訳(メタデータ) (2021-04-10T14:49:11Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。