論文の概要: Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines
- arxiv url: http://arxiv.org/abs/2010.09693v1
- Date: Mon, 19 Oct 2020 17:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:48:14.652350
- Title: Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines
- Title(参考訳): セグメンテーションの字幕:低音源音声翻訳パイプラインの改良
- Authors: David Wan, Zhengping Jiang, Chris Kedzie, Elsbeth Turcan, Peter Bell
and Kathleen McKeown
- Abstract要約: 我々は、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点をあてる。
テレビ番組や映画のサブタイトルのデータセットを使用して、より良いASRセグメンテーションモデルをトレーニングします。
このノイズのある構文情報により,モデルの精度が向上することを示す。
- 参考スコア(独自算出の注目度): 15.669334598926342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on improving ASR output segmentation in the context of
low-resource language speech-to-text translation. ASR output segmentation is
crucial, as ASR systems segment the input audio using purely acoustic
information and are not guaranteed to output sentence-like segments. Since most
MT systems expect sentences as input, feeding in longer unsegmented passages
can lead to sub-optimal performance. We explore the feasibility of using
datasets of subtitles from TV shows and movies to train better ASR segmentation
models. We further incorporate part-of-speech (POS) tag and dependency label
information (derived from the unsegmented ASR outputs) into our segmentation
model. We show that this noisy syntactic information can improve model
accuracy. We evaluate our models intrinsically on segmentation quality and
extrinsically on downstream MT performance, as well as downstream tasks
including cross-lingual information retrieval (CLIR) tasks and human relevance
assessments. Our model shows improved performance on downstream tasks for
Lithuanian and Bulgarian.
- Abstract(参考訳): 本研究では、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点を当てる。
ASRの出力セグメンテーションは、純粋に音響情報を用いて入力音声をセグメンテーションするので、文のようなセグメンテーションは保証されない。
ほとんどのMTシステムは文を入力として期待するので、長い未分割の通路での給餌は準最適性能をもたらす可能性がある。
番組や映画の字幕のデータセットを用いて、より良いASRセグメンテーションモデルをトレーニングする可能性を検討する。
さらに,pos(part-of-speech)タグと依存ラベル情報(asr出力から派生した)をセグメンテーションモデルに組み込む。
このノイズのある構文情報により,モデルの精度が向上することを示す。
本研究は,言語間情報検索(clir)タスクや人間関係評価などの下流タスクと同様に,セグメンテーション品質と下流mt性能に本質的に依存するモデルを評価する。
我々のモデルは、リトアニアとブルガリアの下流作業における性能改善を示す。
関連論文リスト
- REBORN: Reinforcement-Learned Boundary Segmentation with Iterative
Training for Unsupervised ASR [57.38162437636364]
教師なしASRにおける反復訓練による強化学習境界REBORNを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルを訓練し、音素予測モデルを訓練する。
我々は広範囲な実験を行い、REBORNはLibriSpeech, TIMIT, and five non- English languages in Multilingual LibriSpeechにおいて、以前の教師なしASRモデルよりも優れていたことを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - End-to-End Simultaneous Speech Translation with Differentiable
Segmentation [21.03142288187605]
SimulSTはストリーミング音声入力を受信しながら翻訳を出力する。
音声入力を好ましくないタイミングにセグメント化することは、音響的整合性を阻害し、翻訳モデルの性能に悪影響を及ぼす可能性がある。
そこで本研究では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。
論文 参考訳(メタデータ) (2023-05-25T14:25:12Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Segmenting Subtitles for Correcting ASR Segmentation Errors [11.854481771567503]
低リソース言語に対するASRモデルの音響的セグメンテーションを補正するモデルを提案する。
ASRアコースティックセグメンテーションを補正するためのニューラルネットワークタギングモデルをトレーニングし、下流のパフォーマンスを改善することを示します。
論文 参考訳(メタデータ) (2021-04-16T03:04:10Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。