論文の概要: High-Fidelity Simultaneous Speech-To-Speech Translation
- arxiv url: http://arxiv.org/abs/2502.03382v2
- Date: Wed, 26 Feb 2025 09:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:53:11.663058
- Title: High-Fidelity Simultaneous Speech-To-Speech Translation
- Title(参考訳): 高忠実度同時音声音声合成
- Authors: Tom Labiausse, Laurent Mazaré, Edouard Grave, Patrick Pérez, Alexandre Défossez, Neil Zeghidour,
- Abstract要約: 本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
- 参考スコア(独自算出の注目度): 75.69884829562591
- License:
- Abstract: We introduce Hibiki, a decoder-only model for simultaneous speech translation. Hibiki leverages a multistream language model to synchronously process source and target speech, and jointly produces text and audio tokens to perform speech-to-text and speech-to-speech translation. We furthermore address the fundamental challenge of simultaneous interpretation, which unlike its consecutive counterpart, where one waits for the end of the source utterance to start translating, adapts its flow to accumulate just enough context to produce a correct translation in real-time, chunk by chunk. To do so, we introduce a weakly-supervised method that leverages the perplexity of an off-the-shelf text translation system to identify optimal delays on a per-word basis and create aligned synthetic data. After supervised training, Hibiki performs adaptive, simultaneous speech translation with vanilla temperature sampling. On a French-English simultaneous speech translation task, Hibiki demonstrates state-of-the-art performance in translation quality, speaker fidelity and naturalness. Moreover, the simplicity of its inference process makes it compatible with batched translation and even real-time on-device deployment. We provide examples as well as models and inference code.
- Abstract(参考訳): 本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
さらに、ソース発話の終端が翻訳を開始するのを待つ連続的な解釈とは異なり、その流れを適応させ、正しい翻訳をリアルタイムでチャンク単位で生成する。
そこで本研究では,単語単位の最適遅延を識別し,一致した合成データを生成するために,市販のテキスト翻訳システムの難易度を利用した弱教師付き手法を提案する。
教師付き訓練の後、日比木はバニラ温度サンプリングによる適応的同時音声翻訳を行う。
日比木は、フランス語と英語の同時翻訳タスクにおいて、翻訳品質、話者の忠実度、自然性における最先端のパフォーマンスを示す。
さらに、推論プロセスの単純さにより、バッチ翻訳や、デバイス上でのリアルタイムデプロイメントとも互換性がある。
モデルや推論コードだけでなく、サンプルも提供します。
関連論文リスト
- Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声ベースのタスクへの応用は依然として困難である。
本稿では,音声とテキストのインターリーブシーケンスをシームレスに処理する混合モーダルモデルを提案する。
本稿では,多言語音声認識データセットの事前学習を含む包括的学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-20T07:03:49Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End
Simultaneous Speech Translation [23.685648804345984]
テキストの同時翻訳とエンドツーエンドの音声翻訳は、最近大きな進歩を遂げているが、これらのタスクを組み合わさった作業はほとんどない。
我々は,事前決定モジュールを導入することで,待ち時間や単調マルチヘッドといった同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる方法について検討する。
固定およびフレキシブルな事前決定と固定およびフレキシブルなポリシーを組み合わせることで、レイテンシ品質のトレードオフを詳細に分析する。
論文 参考訳(メタデータ) (2020-11-03T22:47:58Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。