論文の概要: Synchronous Bidirectional Learning for Multilingual Lip Reading
- arxiv url: http://arxiv.org/abs/2005.03846v4
- Date: Fri, 14 Aug 2020 15:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:39:55.221491
- Title: Synchronous Bidirectional Learning for Multilingual Lip Reading
- Title(参考訳): 多言語唇読解のための同期双方向学習
- Authors: Mingshuang Luo, Shuang Yang, Xilin Chen, Zitao Liu, Shiguang Shan
- Abstract要約: すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
- 参考スコア(独自算出の注目度): 99.14744013265594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip reading has received increasing attention in recent years. This paper
focuses on the synergy of multilingual lip reading. There are about as many as
7000 languages in the world, which implies that it is impractical to train
separate lip reading models with large-scale data for each language. Although
each language has its own linguistic and pronunciation rules, the lip movements
of all languages share similar patterns due to the common structures of human
organs. Based on this idea, we try to explore the synergized learning of
multilingual lip reading in this paper, and further propose a synchronous
bidirectional learning (SBL) framework for effective synergy of multilingual
lip reading. We firstly introduce phonemes as our modeling units for the
multilingual setting here. Phonemes are more closely related with the lip
movements than the alphabet letters. At the same time, similar phonemes always
lead to similar visual patterns no matter which type the target language is.
Then, a novel SBL block is proposed to learn the rules for each language in a
fill-in-the-blank way. Specifically, the model has to learn to infer the target
unit given its bidirectional context, which could represent the composition
rules of phonemes for each language. To make the learning process more targeted
at each particular language, an extra task of predicting the language identity
is introduced in the learning process. Finally, a thorough comparison on LRW
(English) and LRW-1000 (Mandarin) is performed, which shows the promising
benefits from the synergized learning of different languages and also reports a
new state-of-the-art result on both datasets.
- Abstract(参考訳): 近年,口唇の読解が注目されている。
本稿では,多言語唇読解のシナジーに着目した。
世界には約7000の言語があり、それぞれの言語に対して大規模なデータを持つ別個のリップリーディングモデルをトレーニングすることは非現実的である。
それぞれの言語には独自の言語規則と発音規則があるが、全ての言語の唇の動きは人間の器官の共通構造によって類似したパターンを共有している。
本論文では,多言語唇読解の相乗学習について検討し,さらに,多言語唇読解の効果的な相乗効果のための同期双方向学習(SBL)フレームワークを提案する。
まず,多言語環境のモデル化ユニットとしてphonemesを紹介する。
音素はアルファベットよりも唇の動きと密接に関連している。
同時に、同様の音素は、対象言語がどの型であっても、常に同様の視覚パターンをもたらす。
次に,新しいSBLブロックを提案し,各言語の規則を補充的に学習する。
特に、このモデルは、各言語における音素の構成規則を表わす双方向の文脈から、対象単位を推測することを学ぶ必要がある。
学習プロセスが各言語を対象とするものにするために、学習プロセスに言語同一性を予測する追加のタスクが導入された。
最後に、LRW(英語)とLRW-1000(マンダリン)を徹底的に比較し、異なる言語の相乗学習による有望なメリットを示し、両方のデータセットに新たな最先端結果が報告される。
関連論文リスト
- Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。