論文の概要: Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases
- arxiv url: http://arxiv.org/abs/2402.00632v1
- Date: Thu, 1 Feb 2024 14:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:59:12.795207
- Title: Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases
- Title(参考訳): カスケードと直接音声翻訳における韻律--韓国語wh-phrasesを事例として
- Authors: Giulio Zhou, Tsz Kin Lam, Alexandra Birch, Barry Haddow
- Abstract要約: 本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
- 参考スコア(独自算出の注目度): 79.07111754406841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech-to-Text Translation (S2TT) has typically been addressed with cascade
systems, where speech recognition systems generate a transcription that is
subsequently passed to a translation model. While there has been a growing
interest in developing direct speech translation systems to avoid propagating
errors and losing non-verbal content, prior work in direct S2TT has struggled
to conclusively establish the advantages of integrating the acoustic signal
directly into the translation process. This work proposes using contrastive
evaluation to quantitatively measure the ability of direct S2TT systems to
disambiguate utterances where prosody plays a crucial role. Specifically, we
evaluated Korean-English translation systems on a test set containing
wh-phrases, for which prosodic features are necessary to produce translations
with the correct intent, whether it's a statement, a yes/no question, a
wh-question, and more. Our results clearly demonstrate the value of direct
translation systems over cascade translation models, with a notable 12.9%
improvement in overall accuracy in ambiguous cases, along with up to a 15.6%
increase in F1 scores for one of the major intent categories. To the best of
our knowledge, this work stands as the first to provide quantitative evidence
that direct S2TT models can effectively leverage prosody. The code for our
evaluation is openly accessible and freely available for review and
utilisation.
- Abstract(参考訳): speech-to-text translation (s2tt) は通常カスケードシステムで処理され、音声認識システムは後に翻訳モデルに渡される書き起こしを生成する。
誤りの伝播や非言語的内容の喪失を避けるための直接音声翻訳システム開発への関心が高まっているが、直接S2TTにおける先行研究は、音響信号を直接翻訳プロセスに統合する利点を決定的に確立することに苦慮している。
本研究は,プロソディが重要な役割を担う発話の曖昧さを解消する直接s2ttシステムの能力を定量的に測定するための対比的評価法を提案する。
具体的には, 文言・問答・問答・問答など, 正しい意図で翻訳を行うためには, 韻律的特徴が不可欠である, 単語を含むテストセットを用いて, 韓国英語翻訳システムの評価を行った。
その結果, 逐次翻訳モデルに対する直接翻訳システムの価値が明らかになり, あいまいなケースでは全体の精度が12.9%向上し, 主要な意図カテゴリーの1つでは最大15.6%向上した。
我々の知る限りでは、この研究は、直接S2TTモデルが韻律を効果的に活用できるという定量的証拠を初めて提示するものである。
評価のためのコードは公開されており、レビューや利用には自由に利用できます。
関連論文リスト
- Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody? [7.682929772871941]
韻律は音声からテキストへの翻訳システムの中ではほとんど研究されない。
エンドツーエンド(E2E)システムは、翻訳決定を行う際に音声信号に直接アクセスする。
主な課題は、翻訳における韻律認識を評価することの難しさである。
論文 参考訳(メタデータ) (2024-10-31T15:20:50Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation [45.47457657122893]
表現型音声音声合成(S2ST)は,翻訳精度を維持しつつ,音源音声の韻律的属性を対象音声に伝達することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
そこで本稿では,S2ST表現のための包括的カスケードシステムを提案する。
論文 参考訳(メタデータ) (2023-01-25T14:27:00Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Proficiency assessment of L2 spoken English using wav2vec 2.0 [3.4012007729454816]
wav2vec 2.0 を用いて、2つの小さなデータセットの総合的および個別的な習熟度を評価する。
その結果,本手法は,ASRと手書きによる手書き文字起こしを訓練したBERTベースのベースラインシステムよりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-24T12:36:49Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。