論文の概要: Lightweight Audio Segmentation for Long-form Speech Translation
- arxiv url: http://arxiv.org/abs/2406.10549v1
- Date: Sat, 15 Jun 2024 08:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:53:14.327535
- Title: Lightweight Audio Segmentation for Long-form Speech Translation
- Title(参考訳): 長文音声翻訳のための軽量音声セグメンテーション
- Authors: Jaesong Lee, Soyoon Kim, Hanbyul Kim, Joon Son Chung,
- Abstract要約: モデルサイズを小さくすることで、より優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。
また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 17.743473111298826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech segmentation is an essential part of speech translation (ST) systems in real-world scenarios. Since most ST models are designed to process speech segments, long-form audio must be partitioned into shorter segments before translation. Recently, data-driven approaches for the speech segmentation task have been developed. Although the approaches improve overall translation quality, a performance gap exists due to a mismatch between the models and ST systems. In addition, the prior works require large self-supervised speech models, which consume significant computational resources. In this work, we propose a segmentation model that achieves better speech translation quality with a small model size. We propose an ASR-with-punctuation task as an effective pre-training strategy for the segmentation model. We also show that proper integration of the speech segmentation model into the underlying ST system is critical to improve overall translation quality at inference time.
- Abstract(参考訳): 音声セグメンテーションは、現実のシナリオにおける音声翻訳(ST)システムにおいて不可欠な部分である。
ほとんどのSTモデルは音声セグメントを処理するように設計されているため、長文音声は翻訳の前に短いセグメントに分割する必要がある。
近年,音声分割タスクに対するデータ駆動型アプローチが開発されている。
アプローチは全体的な翻訳品質を改善するが、モデルとSTシステムのミスマッチによる性能差が存在する。
さらに、先行研究は、膨大な計算資源を消費する大規模な自己教師型音声モデルを必要とする。
そこで本研究では,少ないモデルサイズでより優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。
セグメンテーションモデルのための効果的な事前学習戦略として、ASR-with-punctuationタスクを提案する。
また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text
Translation [10.799623536095226]
完全な発話が話される前に、モデルが翻訳を開始する必要があるオンライン音声言語翻訳では、ほとんどの以前の研究はセグメント化の問題を無視している。
オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーやセグメンテーション戦略に対するモデルの堅牢性を改善するための様々な手法を比較した。
5つの異なる言語対についての知見から, 簡単な固定ウィンドウ音声セグメント化が, 適切な条件で驚くほど良好に動作できることが示唆された。
論文 参考訳(メタデータ) (2022-10-24T16:06:33Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Segmenting Subtitles for Correcting ASR Segmentation Errors [11.854481771567503]
低リソース言語に対するASRモデルの音響的セグメンテーションを補正するモデルを提案する。
ASRアコースティックセグメンテーションを補正するためのニューラルネットワークタギングモデルをトレーニングし、下流のパフォーマンスを改善することを示します。
論文 参考訳(メタデータ) (2021-04-16T03:04:10Z) - Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines [15.669334598926342]
我々は、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点をあてる。
テレビ番組や映画のサブタイトルのデータセットを使用して、より良いASRセグメンテーションモデルをトレーニングします。
このノイズのある構文情報により,モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T17:32:40Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。