論文の概要: M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval
- arxiv url: http://arxiv.org/abs/2211.01180v1
- Date: Wed, 2 Nov 2022 14:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:21:29.261800
- Title: M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval
- Title(参考訳): M-SpeechCLIP:多言語音声から画像検索のための大規模事前学習モデル
- Authors: Layne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee,
David Harwath
- Abstract要約: 本稿では,多言語音声画像検索における大規模事前学習モデル(CLIP, HuBERT)の利用について検討する。
非英語の音声画像検索では、各言語で個別のモデルを訓練する場合に、最先端のパフォーマンスを幅広いマージンで上回ります。
学習中に並列音声テキストや音声音声データを見たことがなく、単言語・クロス言語音声検索や言語間音声検索に使用できることを示す。
- 参考スコア(独自算出の注目度): 56.49878599920353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the use of large-scale, pre-trained models (CLIP and
HuBERT) for multilingual speech-image retrieval. For non-English speech-image
retrieval, we outperform the current state-of-the-art performance by a wide
margin when training separate models for each language, and show that a single
model which processes speech in all three languages still achieves retrieval
scores comparable with the prior state-of-the-art. We identify key differences
in model behavior and performance between English and non-English settings,
presumably attributable to the English-only pre-training of CLIP and HuBERT.
Finally, we show that our models can be used for mono- and cross-lingual
speech-text retrieval and cross-lingual speech-speech retrieval, despite never
having seen any parallel speech-text or speech-speech data during training.
- Abstract(参考訳): 本研究では,多言語音声画像検索における大規模事前学習モデル(CLIP, HuBERT)の利用について検討する。
非英語の音声画像検索では、各言語毎に個別のモデルを訓練する際、現在の最先端性能を幅広いマージンで上回り、三言語すべてで音声を処理する単一のモデルが、従来と同等の検索スコアを達成していることを示す。
我々は,CLIPとHuBERTの英語のみの事前学習に起因して,英語と非英語設定のモデル行動と性能に重要な違いを見出した。
最後に,訓練中に並列音声テキストや音声音声データを見たことがなくとも,単言語およびクロス言語音声テキスト検索およびクロス言語音声音声検索に使用できることを示す。
関連論文リスト
- Multilingual Turn-taking Prediction Using Voice Activity Projection [25.094622033971643]
本稿では,音声対話における音声活動予測モデルである音声活動予測(VAP)の多言語データへの適用について検討する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。
3つの言語すべてでトレーニングされた多言語モデルは、すべての言語にわたるモノリンガルモデルと同等の予測性能を示す。
論文 参考訳(メタデータ) (2024-03-11T07:50:29Z) - DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model [16.31307448314024]
蒸留言語間音声表現モデルであるDistilXLSRを提案する。
既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。
本手法は,様々な言語/教師モデルに対して一般化可能であることが証明され,英語事前学習モデルの言語間性能を向上させる可能性がある。
論文 参考訳(メタデータ) (2023-06-02T07:03:06Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。
テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) (2022-02-03T02:26:40Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。