論文の概要: Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines
- arxiv url: http://arxiv.org/abs/2010.09693v1
- Date: Mon, 19 Oct 2020 17:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:48:14.652350
- Title: Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines
- Title(参考訳): セグメンテーションの字幕:低音源音声翻訳パイプラインの改良
- Authors: David Wan, Zhengping Jiang, Chris Kedzie, Elsbeth Turcan, Peter Bell
and Kathleen McKeown
- Abstract要約: 我々は、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点をあてる。
テレビ番組や映画のサブタイトルのデータセットを使用して、より良いASRセグメンテーションモデルをトレーニングします。
このノイズのある構文情報により,モデルの精度が向上することを示す。
- 参考スコア(独自算出の注目度): 15.669334598926342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on improving ASR output segmentation in the context of
low-resource language speech-to-text translation. ASR output segmentation is
crucial, as ASR systems segment the input audio using purely acoustic
information and are not guaranteed to output sentence-like segments. Since most
MT systems expect sentences as input, feeding in longer unsegmented passages
can lead to sub-optimal performance. We explore the feasibility of using
datasets of subtitles from TV shows and movies to train better ASR segmentation
models. We further incorporate part-of-speech (POS) tag and dependency label
information (derived from the unsegmented ASR outputs) into our segmentation
model. We show that this noisy syntactic information can improve model
accuracy. We evaluate our models intrinsically on segmentation quality and
extrinsically on downstream MT performance, as well as downstream tasks
including cross-lingual information retrieval (CLIR) tasks and human relevance
assessments. Our model shows improved performance on downstream tasks for
Lithuanian and Bulgarian.
- Abstract(参考訳): 本研究では、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点を当てる。
ASRの出力セグメンテーションは、純粋に音響情報を用いて入力音声をセグメンテーションするので、文のようなセグメンテーションは保証されない。
ほとんどのMTシステムは文を入力として期待するので、長い未分割の通路での給餌は準最適性能をもたらす可能性がある。
番組や映画の字幕のデータセットを用いて、より良いASRセグメンテーションモデルをトレーニングする可能性を検討する。
さらに,pos(part-of-speech)タグと依存ラベル情報(asr出力から派生した)をセグメンテーションモデルに組み込む。
このノイズのある構文情報により,モデルの精度が向上することを示す。
本研究は,言語間情報検索(clir)タスクや人間関係評価などの下流タスクと同様に,セグメンテーション品質と下流mt性能に本質的に依存するモデルを評価する。
我々のモデルは、リトアニアとブルガリアの下流作業における性能改善を示す。
関連論文リスト
- Lightweight Audio Segmentation for Long-form Speech Translation [17.743473111298826]
モデルサイズを小さくすることで、より優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。
また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2024-06-15T08:02:15Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - End-to-End Simultaneous Speech Translation with Differentiable
Segmentation [21.03142288187605]
SimulSTはストリーミング音声入力を受信しながら翻訳を出力する。
音声入力を好ましくないタイミングにセグメント化することは、音響的整合性を阻害し、翻訳モデルの性能に悪影響を及ぼす可能性がある。
そこで本研究では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。
論文 参考訳(メタデータ) (2023-05-25T14:25:12Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - Segmenting Subtitles for Correcting ASR Segmentation Errors [11.854481771567503]
低リソース言語に対するASRモデルの音響的セグメンテーションを補正するモデルを提案する。
ASRアコースティックセグメンテーションを補正するためのニューラルネットワークタギングモデルをトレーニングし、下流のパフォーマンスを改善することを示します。
論文 参考訳(メタデータ) (2021-04-16T03:04:10Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。