論文の概要: SHAS: Approaching optimal Segmentation for End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2202.04774v1
- Date: Wed, 9 Feb 2022 23:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 16:21:52.163383
- Title: SHAS: Approaching optimal Segmentation for End-to-End Speech Translation
- Title(参考訳): SHAS:エンドツーエンド音声翻訳のための最適セグメンテーションへのアプローチ
- Authors: Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R.
Costa-juss\`a
- Abstract要約: 音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech translation models are unable to directly process long audios, like
TED talks, which have to be split into shorter segments. Speech translation
datasets provide manual segmentations of the audios, which are not available in
real-world scenarios, and existing segmentation methods usually significantly
reduce translation quality at inference time. To bridge the gap between the
manual segmentation of training and the automatic one at inference, we propose
Supervised Hybrid Audio Segmentation (SHAS), a method that can effectively
learn the optimal segmentation from any manually segmented speech corpus.
First, we train a classifier to identify the included frames in a segmentation,
using speech representations from a pre-trained wav2vec 2.0. The optimal
splitting points are then found by a probabilistic Divide-and-Conquer algorithm
that progressively splits at the frame of lowest probability until all segments
are below a pre-specified length. Experiments on MuST-C and mTEDx show that the
translation of the segments produced by our method approaches the quality of
the manual segmentation on 5 languages pairs. Namely, SHAS retains 95-98% of
the manual segmentation's BLEU score, compared to the 87-93% of the best
existing methods. Our method is additionally generalizable to different domains
and achieves high zero-shot performance in unseen languages.
- Abstract(参考訳): 音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
音声翻訳データセットは、実際のシナリオでは利用できない音声の手動セグメンテーションを提供し、既存のセグメンテーション手法は推論時の翻訳品質を著しく低下させる。
そこで本研究では,手話音声コーパスから最適な音声セグメンテーションを効果的に学習する手法であるsupervised hybrid audio segmentation (shas)を提案する。
まず,事前学習したwav2vec 2.0の音声表現を用いて,セグメント化に含まれるフレームを識別するように分類器を訓練する。
最適分割点は、すべてのセグメントが予め決められた長さ以下になるまで、最小確率のフレームで徐々に分割する確率的分割・探索アルゴリズムによって見出される。
MuST-C と mTEDx の実験により,本手法で生成したセグメントの翻訳が5つの言語対における手動セグメンテーションの品質に近づくことを示した。
すなわち、SHASは手動セグメンテーションのBLEUスコアの95-98%を保持しており、既存の最良のメソッドの87-93%である。
本手法は異なる領域に拡張可能であり,未認識言語で高いゼロショット性能を実現する。
関連論文リスト
- Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct
Speech Translation [14.151063458445826]
提案手法は,従来のVAD手法と最適手動分割のギャップを少なくとも30%減らし,他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-23T16:54:13Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - DenoiSeg: Joint Denoising and Segmentation [75.91760529986958]
我々は,いくつかの注釈付き基底真理セグメンテーションでエンドツーエンドに学習できる新しい手法であるDenoySegを提案する。
我々は、ノイズの多い画像だけで訓練できる自己教師付き遮音方式であるNoss2Voidを拡張して、密度の高い3クラスセグメンテーションを予測する。
論文 参考訳(メタデータ) (2020-05-06T17:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。