論文の概要: Dealing with training and test segmentation mismatch: FBK@IWSLT2021
- arxiv url: http://arxiv.org/abs/2106.12607v1
- Date: Wed, 23 Jun 2021 18:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 14:59:18.042767
- Title: Dealing with training and test segmentation mismatch: FBK@IWSLT2021
- Title(参考訳): トレーニングとテストセグメンテーションミスマッチによる対処: FBK@IWSLT2021
- Authors: Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi
- Abstract要約: 本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
- 参考スコア(独自算出の注目度): 13.89298686257514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes FBK's system submission to the IWSLT 2021 Offline Speech
Translation task. We participated with a direct model, which is a
Transformer-based architecture trained to translate English speech audio data
into German texts. The training pipeline is characterized by knowledge
distillation and a two-step fine-tuning procedure. Both knowledge distillation
and the first fine-tuning step are carried out on manually segmented real and
synthetic data, the latter being generated with an MT system trained on the
available corpora. Differently, the second fine-tuning step is carried out on a
random segmentation of the MuST-C v2 En-De dataset. Its main goal is to reduce
the performance drops occurring when a speech translation model trained on
manually segmented data (i.e. an ideal, sentence-like segmentation) is
evaluated on automatically segmented audio (i.e. actual, more realistic testing
conditions). For the same purpose, a custom hybrid segmentation procedure that
accounts for both audio content (pauses) and for the length of the produced
segments is applied to the test data before passing them to the system. At
inference time, we compared this procedure with a baseline segmentation method
based on Voice Activity Detection (VAD). Our results indicate the effectiveness
of the proposed hybrid approach, shown by a reduction of the gap with manual
segmentation from 8.3 to 1.4 BLEU points.
- Abstract(参考訳): 本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語音声データをドイツ語のテキストに変換するためのトランスフォーマティブなアーキテクチャであるdirect modelに参加した。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
知識蒸留と第1の微調整工程の両方を手作業で分割した実データと合成データで行い、後者は利用可能なコーパスで訓練されたMTシステムで生成する。
異なることに、第2の微調整ステップは、MuST-C v2 En-Deデータセットのランダムセグメンテーションで実行される。
その主な目的は、手動でセグメンテーションされたデータ(すなわち)に基づいて訓練された音声翻訳モデルで発生する性能低下を減らすことである。
自動セグメンテーション音声(すなわち、音声)上で理想的な文様セグメンテーションを評価する。
実際の、より現実的なテスト条件)
同じ目的のために、システムに渡す前に、オーディオコンテンツ(ポーズ)と生成されたセグメントの長さの両方を考慮に入れた独自のハイブリッドセグメンテーション手順をテストデータに適用する。
提案手法を,Voice Activity Detection (VAD) に基づくベースラインセグメンテーション法と比較した。
提案手法の有効性は,手動のセグメンテーションによるギャップを8.3から1.4 BLEUポイントに減らし,提案手法の有効性を示した。
関連論文リスト
- Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct
Speech Translation [14.151063458445826]
提案手法は,従来のVAD手法と最適手動分割のギャップを少なくとも30%減らし,他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-23T16:54:13Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020 [20.456325305495966]
本稿では,FBKによるIWSLT 2020オフライン音声翻訳(ST)タスクへの参加について述べる。
このタスクは、英語のTEDトーク音声をドイツ語のテキストに翻訳するシステムの能力を評価する。
本システムは音声データに対するTransformerの適応に基づくエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-06-04T15:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。