論文の概要: Consistent Transcription and Translation of Speech
- arxiv url: http://arxiv.org/abs/2007.12741v2
- Date: Fri, 28 Aug 2020 07:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:39:18.695176
- Title: Consistent Transcription and Translation of Speech
- Title(参考訳): 音声の一貫した転写と翻訳
- Authors: Matthias Sperber, Hendra Setiawan, Christian Gollan, Udhyakumar
Nallasamy, Matthias Paulik
- Abstract要約: 音声を共同で書き起こし,翻訳する作業について検討する。
書き起こしと翻訳の精度は重要であるが、高精度なシステムでさえ、両方の出力の不整合に悩まされることがある。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
- 参考スコア(独自算出の注目度): 13.652411093089947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional paradigm in speech translation starts with a speech
recognition step to generate transcripts, followed by a translation step with
the automatic transcripts as input. To address various shortcomings of this
paradigm, recent work explores end-to-end trainable direct models that
translate without transcribing. However, transcripts can be an indispensable
output in practical applications, which often display transcripts alongside the
translations to users.
We make this common requirement explicit and explore the task of jointly
transcribing and translating speech. While high accuracy of transcript and
translation are crucial, even highly accurate systems can suffer from
inconsistencies between both outputs that degrade the user experience. We
introduce a methodology to evaluate consistency and compare several modeling
approaches, including the traditional cascaded approach and end-to-end models.
We find that direct models are poorly suited to the joint
transcription/translation task, but that end-to-end models that feature a
coupled inference procedure are able to achieve strong consistency. We further
introduce simple techniques for directly optimizing for consistency, and
analyze the resulting trade-offs between consistency, transcription accuracy,
and translation accuracy.
- Abstract(参考訳): 従来の音声翻訳のパラダイムは、音声認識ステップで書き起こしを生成し、次に自動書き起こしを入力として翻訳ステップを実行する。
このパラダイムの様々な欠点に対処するために、最近の研究は、書き起こさずに翻訳できるエンドツーエンドの訓練可能な直接モデルを模索している。
しかし、書き起こしは実用アプリケーションでは必須の出力であり、しばしばユーザへの翻訳と並行して書き起こしを表示する。
我々は,この共通要件を明確化し,音声の同時書き起こしと翻訳の課題を探究する。
書き起こしと翻訳の精度は重要だが、高精度なシステムでさえ、ユーザー体験を劣化させる両方の出力の不整合に悩まされる。
従来のカスケードアプローチやエンドツーエンドモデルなど,いくつかのモデリングアプローチを比較し,一貫性を評価する手法を提案する。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
さらに,一貫性を直接最適化する簡単な手法を導入し,一貫性,転写精度,翻訳精度のトレードオフを解析した。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文 参考訳(メタデータ) (2021-01-22T15:16:54Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。