論文の概要: SegAugment: Maximizing the Utility of Speech Translation Data with
Segmentation-based Augmentations
- arxiv url: http://arxiv.org/abs/2212.09699v1
- Date: Mon, 19 Dec 2022 18:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:36:28.409184
- Title: SegAugment: Maximizing the Utility of Speech Translation Data with
Segmentation-based Augmentations
- Title(参考訳): SegAugment: セグメンテーションによる音声翻訳データの有用性の最大化
- Authors: Ioannis Tsiamas, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a
- Abstract要約: 本稿では,データセットの複数の文レベルビューを提供することにより,データの可用性を向上させる手法を提案する。
MuST-Cの実験では、8つの言語ペアで一貫したゲインを示し、平均2.2 BLEUポイントが増加し、mTEDxの低リソースシナリオでは4.7 BLEUまで増加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity is one of the main issues with the end-to-end approach for
Speech Translation, as compared to the cascaded one. Although most data
resources for Speech Translation are originally document-level, they offer a
sentence-level view, which can be directly used during training. But this
sentence-level view is single and static, potentially limiting the utility of
the data. Our proposed data augmentation method SegAugment challenges this idea
and aims to increase data availability by providing multiple alternative
sentence-level views of a dataset. Our method heavily relies on an Audio
Segmentation system to re-segment the speech of each document, after which we
obtain the target text with alignment methods. The Audio Segmentation system
can be parameterized with different length constraints, thus giving us access
to multiple and diverse sentence-level views for each document. Experiments in
MuST-C show consistent gains across 8 language pairs, with an average increase
of 2.2 BLEU points, and up to 4.7 BLEU for lower-resource scenarios in mTEDx.
Additionally, we find that SegAugment is also applicable to purely
sentence-level data, as in CoVoST, and that it enables Speech Translation
models to completely close the gap between the gold and automatic segmentation
at inference time.
- Abstract(参考訳): データ不足は、カスケードされたものと比較して、音声翻訳のエンドツーエンドアプローチの大きな問題の1つです。
音声翻訳のためのほとんどのデータリソースはもともと文書レベルであるが、訓練中に直接使用できる文レベルビューを提供する。
しかし、この文レベルのビューは単一で静的であり、データの有用性を制限する可能性がある。
提案するデータ拡張手法は、データセットの複数の代替文レベルのビューを提供することで、データ可用性を向上させることを目的としている。
提案手法は,各文書の音声を再分割する音声分割システムに大きく依存しており,その後,アライメント方式でターゲットテキストを取得する。
オーディオセグメンテーションシステムは、異なる長さの制約でパラメータ化できるので、文書ごとに複数の多様な文レベルのビューにアクセスできます。
MuST-Cの実験では、8つの言語ペアで一貫したゲインを示し、平均2.2 BLEUポイントが増加し、mTEDxの低リソースシナリオでは4.7 BLEUまで増加した。
さらに、SegAugmentは、CoVoSTのように純粋に文レベルのデータにも適用可能であること、そして、推論時に金と自動セグメンテーションのギャップを完全に閉じることを可能にしている。
関連論文リスト
- Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing [14.416855042499945]
Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。
純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。
我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。
提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
論文 参考訳(メタデータ) (2022-01-27T08:24:53Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Extracting and filtering paraphrases by bridging natural language
inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。
その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文 参考訳(メタデータ) (2021-11-13T14:06:37Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020 [20.456325305495966]
本稿では,FBKによるIWSLT 2020オフライン音声翻訳(ST)タスクへの参加について述べる。
このタスクは、英語のTEDトーク音声をドイツ語のテキストに翻訳するシステムの能力を評価する。
本システムは音声データに対するTransformerの適応に基づくエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-06-04T15:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。