論文の概要: On the Impact of Noises in Crowd-Sourced Data for Speech Translation
- arxiv url: http://arxiv.org/abs/2206.13756v1
- Date: Tue, 28 Jun 2022 05:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 14:27:53.124762
- Title: On the Impact of Noises in Crowd-Sourced Data for Speech Translation
- Title(参考訳): クラウドソーシングによる音声翻訳における雑音の影響について
- Authors: Siqi Ouyang, Rong Ye, Lei Li
- Abstract要約: MuST-Cは、音声テキストの誤調整、不正確な翻訳、不要な話者名という3つの大きな問題に悩まされている。
実験の結果, クリーンなテストセットではSTモデルの方が優れた性能を示し, 提案モデルのランクは異なるテストセット間で一貫性が保たれていることがわかった。
- 参考スコア(独自算出の注目度): 11.67083845641806
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training speech translation (ST) models requires large and high-quality
datasets. MuST-C is one of the most widely used ST benchmark datasets. It
contains around 400 hours of speech-transcript-translation data for each of the
eight translation directions. This dataset passes several quality-control
filters during creation. However, we find that MuST-C still suffers from three
major quality issues: audio-text misalignment, inaccurate translation, and
unnecessary speaker's name. What are the impacts of these data quality issues
for model development and evaluation? In this paper, we propose an automatic
method to fix or filter the above quality issues, using English-German (En-De)
translation as an example. Our experiments show that ST models perform better
on clean test sets, and the rank of proposed models remains consistent across
different test sets. Besides, simply removing misaligned data points from the
training set does not lead to a better ST model.
- Abstract(参考訳): 訓練用音声翻訳(ST)モデルは大規模かつ高品質なデータセットを必要とする。
MuST-Cは最も広く使われているSTベンチマークデータセットの1つである。
8つの翻訳方向ごとに約400時間の音声書き起こしデータが含まれている。
このデータセットは、作成中にいくつかの品質制御フィルタを通過する。
しかし、MST-Cはオーディオテキストの誤り、不正確な翻訳、不必要な話者名という3つの大きな問題に悩まされている。
データ品質の問題がモデルの開発と評価にどのような影響を及ぼすか?
本稿では,上記の品質問題に対して,英語-ドイツ語(en-de)翻訳を例に用いた自動修正・フィルタリング手法を提案する。
実験の結果,stモデルの方がクリーンなテストセットで性能が良く,提案モデルのランクは異なるテストセットで一貫していることがわかった。
さらに、トレーニングセットから不整合データポイントを削除するだけでは、より良いSTモデルにはならない。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good? [2.492943108520374]
本研究は, モノリンガルデータも少なすぎるか, 品質に基づく削減が翻訳モデルの性能に与える影響について検討する。
実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを利用するよりも、品質やテストデータ領域に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
論文 参考訳(メタデータ) (2024-10-17T17:20:40Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - There's no Data Like Better Data: Using QE Metrics for MT Data Filtering [25.17221095970304]
ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-09T13:21:34Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Tackling data scarcity in speech translation using zero-shot
multilingual machine translation techniques [12.968557512440759]
ゼロショット翻訳にはいくつかの手法が提案されている。
音声翻訳データとテキスト翻訳データに基づいて訓練されたSTモデルを構築することにより,これらのアイデアが音声翻訳に適用できるかどうかを検討する。
これらの技術は制限されたSTデータを用いて数発のSTに適用され、ASRモデルから微調整されたSTモデルと比較して、直接のSTと+3.1のBLEUポイントに比べて最大+12.9のBLEUポイントの改善がなされた。
論文 参考訳(メタデータ) (2022-01-26T20:20:59Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Zero-shot Speech Translation [0.0]
音声翻訳(英: Speech Translation、ST)とは、ある言語の音声を他の言語のテキストに変換するタスクである。
エンドツーエンドのアプローチでは、エラーの伝播を避けるために1つのシステムのみを使用するが、データ不足のため、利用は困難である。
学習中に目に見えない言語のペアを翻訳できるゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-07-13T12:00:44Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。