論文の概要: Phone Features Improve Speech Translation
- arxiv url: http://arxiv.org/abs/2005.13681v1
- Date: Wed, 27 May 2020 22:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:33:58.779763
- Title: Phone Features Improve Speech Translation
- Title(参考訳): 電話機能による音声翻訳の改善
- Authors: Elizabeth Salesky and Alan W Black
- Abstract要約: 音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行う
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
- 参考スコア(独自算出の注目度): 69.54616570679343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models for speech translation (ST) more tightly couple speech
recognition (ASR) and machine translation (MT) than a traditional cascade of
separate ASR and MT models, with simpler model architectures and the potential
for reduced error propagation. Their performance is often assumed to be
superior, though in many conditions this is not yet the case. We compare
cascaded and end-to-end models across high, medium, and low-resource
conditions, and show that cascades remain stronger baselines. Further, we
introduce two methods to incorporate phone features into ST models. We show
that these features improve both architectures, closing the gap between
end-to-end models and cascades, and outperforming previous academic work -- by
up to 9 BLEU on our low-resource setting.
- Abstract(参考訳): 音声翻訳(ST)のエンド・ツー・エンドモデルでは、従来のASRおよびMTモデルのカスケードよりも、より単純なモデルアーキテクチャとエラーの伝播を減らす可能性があり、より密にカップル音声認識(ASR)と機械翻訳(MT)が可能である。
彼らのパフォーマンスは、しばしば優れていると仮定されるが、多くの状況では、まだそうではない。
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
さらに,電話機能をstモデルに組み込む手法を2つ紹介する。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドモデルとカスケードの間のギャップを狭め、低リソース設定で最大9 bleuで以前の学術研究を上回っています。
関連論文リスト
- Improving Speech Translation by Cross-Modal Multi-Grained Contrastive
Learning [8.501945512734268]
E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。
提案手法の重要な要素は,文レベルとフレームレベルの両方でコントラスト学習を適用し,リッチな意味情報を含む音声表現を抽出するための包括的なガイドを提供することである。
MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して,最先端のE2E-STベースラインを大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2023-04-20T13:41:56Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文 参考訳(メタデータ) (2021-01-22T15:16:54Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。