論文の概要: Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer
- arxiv url: http://arxiv.org/abs/2310.03724v1
- Date: Thu, 5 Oct 2023 17:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 13:17:47.809869
- Title: Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer
- Title(参考訳): ゼロショットクロスモーダルトランスファーのためのモジュール音声-テキスト変換
- Authors: Paul-Ambroise Duquenne, Holger Schwenk, Beno\^it Sagot
- Abstract要約: 本研究は,多言語学習により,このようなアプローチをさらに改善できることを示す。
複数の言語に対するXLSRに基づく教師ありアプローチよりも優れているにもかかわらず、ゼロショット・クロスモーダル音声翻訳の大幅な改善が観察された。
- 参考スコア(独自算出の注目度): 22.744544108288274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that independently trained encoders and decoders,
combined through a shared fixed-size representation, can achieve competitive
performance in speech-to-text translation. In this work, we show that this type
of approach can be further improved with multilingual training. We observe
significant improvements in zero-shot cross-modal speech translation, even
outperforming a supervised approach based on XLSR for several languages.
- Abstract(参考訳): 近年の研究では、独立に訓練されたエンコーダとデコーダは、共用固定サイズの表現によって結合され、音声からテキストへの翻訳において競争的性能を達成できることが示されている。
本研究では,多言語学習により,このようなアプローチをさらに改善できることを示す。
複数の言語に対するXLSRに基づく教師ありアプローチよりも優れているにもかかわらず、ゼロショット・クロスモーダル音声翻訳の大幅な改善が観察された。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - Adaptive Cross-lingual Text Classification through In-Context One-Shot Demonstrations [47.89819316477715]
我々は、IC-XLT(In-Context Cross-lingual Transfer)を導入して、分類タスクにおけるワンショット言語間移動にICT(In-Context Tuning)を利用する。
新たな概念は、コンテキストサンプルから学習するためにモデルをトレーニングし、その言語でOne-Shotコンテキストのデモを予測することによって、ターゲット言語への推論中にそれを適応させる、というものだ。
この結果から, IC-XLT はmT5モデルの言語横断性を向上し, 微調整により適応したZero およびFew-shot シナリオにおいて, プロンプトベースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T04:40:57Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation [19.332953510406327]
そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。
多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。
言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-05-24T17:23:35Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。
テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) (2022-02-03T02:26:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。