Fugu-MT 論文翻訳(概要): SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation

論文の概要: SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation

arxiv url: http://arxiv.org/abs/2205.08180v1
Date: Tue, 17 May 2022 08:58:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-18 12:59:21.850441
Title: SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation
Title（参考訳）: SAMU-XLSR: セマンティックな多モード発話レベルの言語間音声表現
Authors: Sameer Khurana and Antoine Laurent and James Glass
Abstract要約: 本稿では,SAMU-XLSRを提案する。我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。
参考スコア（独自算出の注目度）: 11.552745999302905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose the SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation learning framework. Unlike previous works on speech representation learning, which learns multilingual contextual speech embedding at the resolution of an acoustic frame (10-20ms), this work focuses on learning multimodal (speech-text) multilingual speech embedding at the resolution of a sentence (5-10s) such that the embedding vector space is semantically aligned across different languages. We combine state-of-the-art multilingual acoustic frame-level speech representation learning model XLS-R with the Language Agnostic BERT Sentence Embedding (LaBSE) model to create an utterance-level multimodal multilingual speech encoder SAMU-XLSR. Although we train SAMU-XLSR with only multilingual transcribed speech data, cross-lingual speech-text and speech-speech associations emerge in its learned representation space. To substantiate our claims, we use SAMU-XLSR speech encoder in combination with a pre-trained LaBSE text sentence encoder for cross-lingual speech-to-text translation retrieval, and SAMU-XLSR alone for cross-lingual speech-to-speech translation retrieval. We highlight these applications by performing several cross-lingual text and speech translation retrieval tasks across several datasets.
Abstract（参考訳）: samu-xlsr: 意味的に整合したマルチモーダル発話レベル言語間表現学習フレームワークを提案する。音声フレーム(10～20ms)の解像度で多言語的文脈音声埋め込みを学習する従来の音声表現学習とは異なり、本研究は文(5〜10s)の解像度で多モーダル(音声テキスト)多言語音声埋め込みを学習することに焦点を当て、埋め込みベクトル空間が意味的に異なる言語にまたがるようにしている。我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。我々は多言語転写音声データのみを用いてSAMU-XLSRを訓練するが、言語間音声テキストと音声音声関連は学習された表現空間に現れる。我々の主張を裏付けるために,SAMU-XLSR音声エンコーダと事前学習したLaBSEテキスト文エンコーダを併用し,SAMU-XLSR単独で言語間音声-音声間翻訳を行う。複数のデータセットにまたがる言語間テキストと音声翻訳検索タスクを実行することで,これらの応用を強調した。

関連論文リスト

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文参考訳（メタデータ） (2025-03-08T16:40:13Z)
CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval [0.9023847175654603]
CLASP(Contrastive Language-Speech Pretraining)は、音声テキスト情報検索に適した多言語表現である。トレーニングでは,フィクションから宗教まで15の分野を対象とする音声テキストデータセットを新たに導入した。複数の言語で評価した結果、CLASPはHITS@1、MRR、平均Rメトリクスで新しいベンチマークを確立している。
論文参考訳（メタデータ） (2024-12-17T16:38:10Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.660499609887886]
Speech-MASSIVEは多言語音声言語理解データセットである。異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文参考訳（メタデータ） (2024-08-07T16:55:28Z)
MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation [45.558316325252335]
マルチタスク音声言語モデル(Multitask Speech Language Model、MSLM)は、マルチタスク設定で訓練されたデコーダのみの音声言語モデルである。我々のモデルは、話者スタイルを保存した多言語S2STをサポートすることができる。
論文参考訳（メタデータ） (2024-03-19T03:35:20Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine Translation [19.332953510406327]
そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
論文参考訳（メタデータ） (2022-05-24T17:23:35Z)
mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文参考訳（メタデータ） (2022-02-03T02:26:40Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文参考訳（メタデータ） (2020-10-22T23:07:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。