論文の概要: Contextualized Translation of Automatically Segmented Speech
- arxiv url: http://arxiv.org/abs/2008.02270v1
- Date: Wed, 5 Aug 2020 17:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:11:43.704591
- Title: Contextualized Translation of Automatically Segmented Speech
- Title(参考訳): 自動分割音声の文脈化翻訳
- Authors: Marco Gaido, Mattia Antonino Di Gangi, Matteo Negri, Mauro Cettolo,
Marco Turchi
- Abstract要約: ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
- 参考スコア(独自算出の注目度): 20.334746967390164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech-to-text translation (ST) models are usually trained on corpora
segmented at sentence level, but at inference time they are commonly fed with
audio split by a voice activity detector (VAD). Since VAD segmentation is not
syntax-informed, the resulting segments do not necessarily correspond to
well-formed sentences uttered by the speaker but, most likely, to fragments of
one or more sentences. This segmentation mismatch degrades considerably the
quality of ST models' output. So far, researchers have focused on improving
audio segmentation towards producing sentence-like splits. In this paper,
instead, we address the issue in the model, making it more robust to a
different, potentially sub-optimal segmentation. To this aim, we train our
models on randomly segmented data and compare two approaches: fine-tuning and
adding the previous segment as context. We show that our context-aware solution
is more robust to VAD-segmented input, outperforming a strong base model and
the fine-tuning on different VAD segmentations of an English-German test set by
up to 4.25 BLEU points.
- Abstract(参考訳): direct speech-to-text translation (st)モデルは通常、文レベルでセグメンテーションされたコーパスで訓練されるが、推論時には音声アクティビティ検出器 (vad) によって分割される。
VADセグメンテーションは構文インフォーム化されていないため、結果のセグメンテーションは必ずしも話者が発する十分な文に対応するのではなく、1つ以上の文の断片に対応する。
このセグメンテーションミスマッチはSTモデルの出力の品質を大幅に低下させる。
これまで研究者たちは、音声セグメンテーションの改良に力を入れてきた。
そこで本論文では,モデル内の問題に対処し,異なる,潜在的に最適でないセグメンテーションに対してより堅牢に対処する。
この目的のために、ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、2つのアプローチを比較する。
我々の文脈認識ソリューションは、強いベースモデルと最大4.25BLEUポイントの英語-ドイツ語テストの異なるVADセグメンテーションの微調整により、VAD分割された入力に対してより堅牢であることを示す。
関連論文リスト
- Lightweight Audio Segmentation for Long-form Speech Translation [17.743473111298826]
モデルサイズを小さくすることで、より優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。
また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2024-06-15T08:02:15Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - End-to-End Simultaneous Speech Translation with Differentiable
Segmentation [21.03142288187605]
SimulSTはストリーミング音声入力を受信しながら翻訳を出力する。
音声入力を好ましくないタイミングにセグメント化することは、音響的整合性を阻害し、翻訳モデルの性能に悪影響を及ぼす可能性がある。
そこで本研究では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。
論文 参考訳(メタデータ) (2023-05-25T14:25:12Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。