論文の概要: Isochrony-Controlled Speech-to-Text Translation: A study on translating from Sino-Tibetan to Indo-European Languages
- arxiv url: http://arxiv.org/abs/2411.07387v1
- Date: Mon, 11 Nov 2024 21:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:20:58.625355
- Title: Isochrony-Controlled Speech-to-Text Translation: A study on translating from Sino-Tibetan to Indo-European Languages
- Title(参考訳): isochrony-Controlled Speech-to-Text Translation:Sino-Tibetanからインド・ヨーロッパ語への翻訳に関する研究
- Authors: Midia Yousefi, Yao Qian, Junkun Chen, Gang Wang, Yanqing Liu, Dongmei Wang, Xiaofei Wang, Jian Xue,
- Abstract要約: エンドツーエンド音声翻訳(ST)は、ソース言語音声を直接ターゲット言語テキストに変換する。
多くのSTアプリケーションは、翻訳期間がソースオーディオの長さと一致することを保証するために、厳密な長さ制御を必要とする。
本稿では,シーケンス・ツー・シーケンスSTモデルの時間的アライメント特性の改善について述べる。
- 参考スコア(独自算出の注目度): 33.5772006275197
- License:
- Abstract: End-to-end speech translation (ST), which translates source language speech directly into target language text, has garnered significant attention in recent years. Many ST applications require strict length control to ensure that the translation duration matches the length of the source audio, including both speech and pause segments. Previous methods often controlled the number of words or characters generated by the Machine Translation model to approximate the source sentence's length without considering the isochrony of pauses and speech segments, as duration can vary between languages. To address this, we present improvements to the duration alignment component of our sequence-to-sequence ST model. Our method controls translation length by predicting the duration of speech and pauses in conjunction with the translation process. This is achieved by providing timing information to the decoder, ensuring it tracks the remaining duration for speech and pauses while generating the translation. The evaluation on the Zh-En test set of CoVoST 2, demonstrates that the proposed Isochrony-Controlled ST achieves 0.92 speech overlap and 8.9 BLEU, which has only a 1.4 BLEU drop compared to the ST baseline.
- Abstract(参考訳): 近年,ソースコードを対象言語テキストに翻訳するエンドツーエンド音声翻訳 (ST) が注目されている。
多くのSTアプリケーションは、音声とポーズセグメントの両方を含むソースオーディオの長さに翻訳期間が一致することを保証するために、厳密な長さ制御を必要とする。
従来の手法では、単語の長さが言語によって異なるため、ポーズと音声セグメントの等時性を考慮することなく、ソース文の長さを近似するために、機械翻訳モデルによって生成された単語や文字の数を制御することが多かった。
そこで本研究では,シーケンス・ツー・シーケンスSTモデルの時間的アライメント特性の改善について述べる。
本手法は,翻訳プロセスと連動して音声とポーズの持続時間を予測し,翻訳長を制御する。
これはデコーダにタイミング情報を提供し、翻訳を生成しながら音声と一時停止の残りの期間を確実に追跡することで達成される。
The evaluation on the Zh-En test set of CoVoST 2 showed that the proposed Isochrony-Controlled ST achieve a 0.92 speech overlap and 8.9 BLEU, which has only a 1.4 BLEU drop than the ST baseline。
関連論文リスト
- Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文 参考訳(メタデータ) (2022-11-11T02:29:28Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:02:15Z) - Is 42 the Answer to Everything in Subtitling-oriented Speech
Translation? [16.070428245677675]
情報の発信にはサブティットがますます重要になっている。
サブタイリングに音声翻訳(ST)を適用する2つの手法について検討する。
論文 参考訳(メタデータ) (2020-06-01T17:02:28Z) - Worse WER, but Better BLEU? Leveraging Word Embedding as Intermediate in
Multitask End-to-End Speech Translation [127.54315184545796]
音声翻訳(ST)は、ソース言語の音声からターゲット言語のテキストへの変換を学習することを目的としている。
単語埋め込みを中間語として活用することでマルチタスクSTモデルを改善することを提案する。
論文 参考訳(メタデータ) (2020-05-21T14:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。