論文の概要: Seamless: Multilingual Expressive and Streaming Speech Translation
- arxiv url: http://arxiv.org/abs/2312.05187v1
- Date: Fri, 8 Dec 2023 17:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:24:38.932731
- Title: Seamless: Multilingual Expressive and Streaming Speech Translation
- Title(参考訳): Seamless:多言語表現とストリーム音声翻訳
- Authors: Seamless Communication, Lo\"ic Barrault, Yu-An Chung, Mariano Coria
Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne,
Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang,
Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel
Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram
Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang,
Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti,
Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia Gonzalez,
Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu,
Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss\`a, Maha
Elbayad, Hongyu Gong, Francisco Guzm\'an, Kevin Heffernan, Somya Jain,
Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino,
Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun,
Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson
- Abstract要約: 本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
- 参考スコア(独自算出の注目度): 71.12826355107889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale automatic speech translation systems today lack key features that
help machine-mediated communication feel seamless when compared to
human-to-human dialogue. In this work, we introduce a family of models that
enable end-to-end expressive and multilingual translations in a streaming
fashion. First, we contribute an improved version of the massively multilingual
and multimodal SeamlessM4T model-SeamlessM4T v2. This newer model,
incorporating an updated UnitY2 framework, was trained on more low-resource
language data. SeamlessM4T v2 provides the foundation on which our next two
models are initiated. SeamlessExpressive enables translation that preserves
vocal styles and prosody. Compared to previous efforts in expressive speech
research, our work addresses certain underexplored aspects of prosody, such as
speech rate and pauses, while also preserving the style of one's voice. As for
SeamlessStreaming, our model leverages the Efficient Monotonic Multihead
Attention mechanism to generate low-latency target translations without waiting
for complete source utterances. As the first of its kind, SeamlessStreaming
enables simultaneous speech-to-speech/text translation for multiple source and
target languages. To ensure that our models can be used safely and responsibly,
we implemented the first known red-teaming effort for multimodal machine
translation, a system for the detection and mitigation of added toxicity, a
systematic evaluation of gender bias, and an inaudible localized watermarking
mechanism designed to dampen the impact of deepfakes. Consequently, we bring
major components from SeamlessExpressive and SeamlessStreaming together to form
Seamless, the first publicly available system that unlocks expressive
cross-lingual communication in real-time. The contributions to this work are
publicly released and accessible at
https://github.com/facebookresearch/seamless_communication
- Abstract(参考訳): 現在、大規模な自動音声翻訳システムには、人間対人間の対話に比べて機械によるコミュニケーションをシームレスに感じられる重要な機能がない。
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング方式で実現するためのモデルファミリを紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版を提案する。
更新されたUnitY2フレームワークを取り入れたこの新しいモデルは、より低リソースの言語データに基づいてトレーニングされた。
SeamlessM4T v2は、次の2つのモデルを開始する基盤を提供します。
SeamlessExpressiveは、ボーカルスタイルと韻律を保存する翻訳を可能にする。
本研究は,従来の表現的音声研究の取り組みと比較して,発話速度やポーズといった韻律の過小な側面に対処するとともに,声のスタイルを保存している。
SeamlessStreamingに関しては,効率の良いモノトニック・マルチヘッド・アテンション機構を利用して,完全な発話を待たずに低レイテンシなターゲット翻訳を生成する。
この種の最初のものとして、seamlessstreamingは複数のソースとターゲット言語を同時に音声から音声への翻訳を可能にする。
モデルが安全かつ責任を持って使用できるように,マルチモーダル機械翻訳における最初のレッドチーム作業,追加毒性の検出と軽減のためのシステム,性別バイアスの体系的評価,ディープフェイクの影響を弱めるように設計された不明瞭な局所的透かし機構を実装した。
これにより,シームレスな表現とシームレスなストリーミングから主要なコンポーネントを組み合わせることで,表現力のある言語間コミュニケーションをリアルタイムにアンロックする,最初の一般公開システムとなる。
この作業へのコントリビューションはhttps://github.com/facebookresearch/seamless_communicationで公開されている。
関連論文リスト
- SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Direct Punjabi to English speech translation using discrete units [4.883313216485195]
本稿では,Punjabi という言語を英語に翻訳する手法を提案する。
また、トランスフォーマーに基づく翻訳モデルへの入力として、離散音響単位と呼ばれる音声の離散表現を用いた場合の性能についても検討する。
以上の結果から,U2UTモデルは3.69BLEUスコアによるS2UTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-25T03:03:34Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion [0.0]
我々は,音声のwav2vec2.0とテキスト翻訳のMarianMTの2つのモデルを組み合わせて,音声行動を予測する手法を開発した。
また,我々のモデルであるBeAts(underlinetextbfBe$ngali)がMultimodal $underlinetextbfAt$tention Fu$underlinetextbfs$ionを用いて音声認識を行うことを示す。
論文 参考訳(メタデータ) (2023-06-05T08:12:17Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。