Fugu-MT 論文翻訳(概要): SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

論文の概要: SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

arxiv url: http://arxiv.org/abs/2212.09699v2
Date: Mon, 22 May 2023 09:29:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 04:48:55.275140
Title: SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations
Title（参考訳）: SegAugment: セグメンテーションによる音声翻訳データの有用性の最大化
Authors: Ioannis Tsiamas, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a
Abstract要約: エンドツーエンドの音声翻訳は、利用可能なデータリソースの不足によって妨げられます。この問題に対処するために,新たなデータ拡張戦略であるSegAugmentを提案する。また,提案手法は文レベルデータセットの強化にも有効であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end Speech Translation is hindered by a lack of available data resources. While most of them are based on documents, a sentence-level version is available, which is however single and static, potentially impeding the usefulness of the data. We propose a new data augmentation strategy, SegAugment, to address this issue by generating multiple alternative sentence-level versions of a dataset. Our method utilizes an Audio Segmentation system, which re-segments the speech of each document with different length constraints, after which we obtain the target text via alignment methods. Experiments demonstrate consistent gains across eight language pairs in MuST-C, with an average increase of 2.5 BLEU points, and up to 5 BLEU for low-resource scenarios in mTEDx. Furthermore, when combined with a strong system, SegAugment establishes new state-of-the-art results in MuST-C. Finally, we show that the proposed method can also successfully augment sentence-level datasets, and that it enables Speech Translation models to close the gap between the manual and automatic segmentation at inference time.
Abstract（参考訳）: エンドツーエンドの音声翻訳は、利用可能なデータリソースの不足によって妨げられます。その多くは文書に基づいているが、文レベルのバージョンが利用可能であり、単一かつ静的であり、データの有用性を阻害する可能性がある。我々は、データセットの複数の代替文レベルバージョンを生成することにより、この問題に対処する新しいデータ拡張戦略であるSegAugmentを提案する。本手法では,各文書の音声を異なる長さ制約で再セグメント化する音声セグメンテーションシステムを用いて,アライメント手法により対象テキストを取得する。実験では、MST-Cの8つの言語ペアで一貫したゲインを示し、平均2.5BLEUポイント、mTEDxの低リソースシナリオでは最大5BLEUが増加した。さらに、強力なシステムと組み合わせると、SegAugment は MuST-C で新しい最先端の結果を確立する。最後に,提案手法は文レベルデータセットの強化にも成功し,音声翻訳モデルにより推論時に手動と自動セグメンテーションのギャップを埋めることができることを示す。

関連論文リスト

Dense Video Captioning using Graph-based Sentence Summarization [80.52481563888459]
本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
論文参考訳（メタデータ） (2025-06-25T16:23:43Z)
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications [1.5908667698635532]
非文レベルのデータは、長文音声のパフォーマンスを向上する可能性があるが、著作権法により取得が困難であり、しばしば制限される。我々の手法は、よりアクセスしやすい文レベルのデータを、長文音声を扱うモデルの能力を保持するフォーマットに変換することで、このギャップを埋める。我々のモデルは、未調整のWhisperと、これまでの最先端のスイスのドイツのSTTモデルと比較し、そこでは、我々の新しいモデルはより高いBLEUスコアを達成します。
論文参考訳（メタデータ） (2024-12-20T09:49:02Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文参考訳（メタデータ） (2024-01-23T21:55:34Z)
Long-Form End-to-End Speech Translation via Latent Alignment Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文参考訳（メタデータ） (2023-09-20T15:10:12Z)
Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。事前学習された音声モデルに対する教師なし領域適応手法を提案する。実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文参考訳（メタデータ） (2022-10-18T22:26:13Z)
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文参考訳（メタデータ） (2022-10-18T03:06:47Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。 MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文参考訳（メタデータ） (2022-02-09T23:55:25Z)
Systematic Investigation of Strategies Tailored for Low-Resource Settings for Sanskrit Dependency Parsing [14.416855042499945]
Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
論文参考訳（メタデータ） (2022-01-27T08:24:53Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
Extracting and filtering paraphrases by bridging natural language inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文参考訳（メタデータ） (2021-11-13T14:06:37Z)
Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。 EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-26T06:33:02Z)
End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020 [20.456325305495966]
本稿では,FBKによるIWSLT 2020オフライン音声翻訳(ST)タスクへの参加について述べる。このタスクは、英語のTEDトーク音声をドイツ語のテキストに翻訳するシステムの能力を評価する。本システムは音声データに対するTransformerの適応に基づくエンドツーエンドモデルである。
論文参考訳（メタデータ） (2020-06-04T15:47:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。