論文の概要: Learning Cross-lingual Visual Speech Representations
- arxiv url: http://arxiv.org/abs/2303.09455v1
- Date: Tue, 14 Mar 2023 17:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:47:27.040778
- Title: Learning Cross-lingual Visual Speech Representations
- Title(参考訳): 言語間視覚表現の学習
- Authors: Andreas Zinonos, Alexandros Haliassos, Pingchuan Ma, Stavros Petridis,
Maja Pantic
- Abstract要約: 言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
- 参考スコア(独自算出の注目度): 108.68531445641769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual self-supervised learning has been a growing research topic in
the last few years. However, current works only explored the use of audio
signals to create representations. In this work, we study cross-lingual
self-supervised visual representation learning. We use the recently-proposed
Raw Audio-Visual Speech Encoders (RAVEn) framework to pre-train an audio-visual
model with unlabelled multilingual data, and then fine-tune the visual model on
labelled transcriptions. Our experiments show that: (1) multi-lingual models
with more data outperform monolingual ones, but, when keeping the amount of
data fixed, monolingual models tend to reach better performance; (2)
multi-lingual outperforms English-only pre-training; (3) using languages which
are more similar yields better results; and (4) fine-tuning on unseen languages
is competitive to using the target language in the pre-training set. We hope
our study inspires future research on non-English-only speech representation
learning.
- Abstract(参考訳): 言語横断型自己教師付き学習はここ数年、研究テーマとして増えている。
しかし、現在の作品では、音声信号を用いた表現のみを探求している。
本研究では,言語間自己教師付き視覚表現学習について検討する。
我々は最近提案されたRAVEn(Raw Audio-Visual Speech Encoders)フレームワークを用いて,ラベル付き書き起こしで視覚モデルを微調整する。
実験の結果,(1)データ量の多い多言語モデルの方がモノリンガルモデルより優れているが,データ量を維持すると単言語モデルの方が性能が向上する傾向にあり,(2)英語のみの事前学習に優れ,(3)類似の収率を持つ言語を用いた場合,(4)未確認言語の微調整は事前学習セットで対象言語を使用する場合と競合することがわかった。
本研究は,非英語のみの音声表現学習の今後の研究を促すことを願っている。
関連論文リスト
- ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。
我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。
我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T14:48:51Z) - Multilingual Turn-taking Prediction Using Voice Activity Projection [25.094622033971643]
本稿では,音声対話における音声活動予測モデルである音声活動予測(VAP)の多言語データへの適用について検討する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。
3つの言語すべてでトレーニングされた多言語モデルは、すべての言語にわたるモノリンガルモデルと同等の予測性能を示す。
論文 参考訳(メタデータ) (2024-03-11T07:50:29Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。