論文の概要: Does Joint Training Really Help Cascaded Speech Translation?
- arxiv url: http://arxiv.org/abs/2210.13700v1
- Date: Mon, 24 Oct 2022 12:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:05:35.098059
- Title: Does Joint Training Really Help Cascaded Speech Translation?
- Title(参考訳): 共同学習は本当に音声翻訳に役立つのか?
- Authors: Viet Anh Khoa Tran, David Thulke, Yingbo Gao, Christian Herold,
Hermann Ney
- Abstract要約: 音声翻訳において、音声認識システムを翻訳システムでカスケードするという単純なアプローチは、最先端の結果をもたらす。
本研究では,共同学習が本当に音声翻訳に役立つのかという疑問に答える。
- 参考スコア(独自算出の注目度): 40.35438060399924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, in speech translation, the straightforward approach - cascading a
recognition system with a translation system - delivers state-of-the-art
results. However, fundamental challenges such as error propagation from the
automatic speech recognition system still remain. To mitigate these problems,
recently, people turn their attention to direct data and propose various joint
training methods. In this work, we seek to answer the question of whether joint
training really helps cascaded speech translation. We review recent papers on
the topic and also investigate a joint training criterion by marginalizing the
transcription posterior probabilities. Our findings show that a strong cascaded
baseline can diminish any improvements obtained using joint training, and we
suggest alternatives to joint training. We hope this work can serve as a
refresher of the current speech translation landscape, and motivate research in
finding more efficient and creative ways to utilize the direct data for speech
translation.
- Abstract(参考訳): 現在、音声翻訳において、音声認識システムを翻訳システムでカスケードする簡単なアプローチは、最先端の結果を提供する。
しかし,音声認識システムからの誤り伝播などの根本的な課題は依然として残っている。
これらの問題を解決するため,近年では,直接データに注意を向け,様々な共同トレーニング手法を提案する。
本研究では,共同学習が音声翻訳に本当に役立つのかという疑問に答える。
本研究は最近の論文をレビューし,転写後確率の限界化による共同訓練基準の検討も行った。
以上の結果から, 強いカスケードベースラインは, 関節トレーニングによる改善を減少させる可能性が示唆され, 関節トレーニングの代替案を提案する。
私たちは、この研究が現在の音声翻訳の状況のリフレッシュに役立ち、より効率的で創造的な方法で音声翻訳の直接データを活用するための研究を動機付けることを望んでいる。
関連論文リスト
- Unveiling the Role of Pretraining in Direct Speech Translation [14.584351239812394]
我々は,事前学習エンコーダを用いたシステムのトレーニング力学,従来のアプローチ,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムモデルがその予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
本稿では,デコーダのクロスアテンションを微妙に変化させ,トレーニングの初期の段階からソース情報を統合することを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:46:46Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。