論文の概要: Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead
- arxiv url: http://arxiv.org/abs/2210.14446v2
- Date: Thu, 27 Oct 2022 05:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:15:23.307937
- Title: Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead
- Title(参考訳): ルックアヘッドを用いた音響言語特徴を用いたスマート音声分割
- Authors: Piyush Behre, Naveen Parihar, Sharman Tan, Amy Shah, Eva Sharma,
Geoffrey Liu, Shuangyu Chang, Hosam Khalil, Chris Basoglu, Sayan Pathak
- Abstract要約: 本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
- 参考スコア(独自算出の注目度): 3.579111205766969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmentation for continuous Automatic Speech Recognition (ASR) has
traditionally used silence timeouts or voice activity detectors (VADs), which
are both limited to acoustic features. This segmentation is often overly
aggressive, given that people naturally pause to think as they speak.
Consequently, segmentation happens mid-sentence, hindering both punctuation and
downstream tasks like machine translation for which high-quality segmentation
is critical. Model-based segmentation methods that leverage acoustic features
are powerful, but without an understanding of the language itself, these
approaches are limited. We present a hybrid approach that leverages both
acoustic and language information to improve segmentation. Furthermore, we show
that including one word as a look-ahead boosts segmentation quality. On
average, our models improve segmentation-F0.5 score by 9.8% over baseline. We
show that this approach works for multiple languages. For the downstream task
of machine translation, it improves the translation BLEU score by an average of
1.05 points.
- Abstract(参考訳): 連続音声認識のためのセグメンテーション(ASR)は、伝統的にサイレントタイムアウトまたは音声活動検出器(VAD)を使用しており、どちらも音響的特徴に限定されている。
このセグメンテーションは、人々が話すときに自然に立ち止まって考えるので、しばしば過度に攻撃的です。
その結果、セグメンテーションは、セグメンテーションが重要な機械翻訳のような句読点と下流のタスクの両方を妨げる。
音響特性を利用するモデルベースセグメンテーション手法は強力であるが,言語自体の理解がなければ,これらのアプローチは限定的である。
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
さらに,1単語をルックアヘッドとして含むとセグメンテーションの品質が向上することを示す。
平均すると、このモデルはセグメンテーションf0.5スコアをベースラインよりも9.8%向上させる。
このアプローチは複数の言語で有効であることを示す。
機械翻訳のダウンストリームタスクでは、翻訳bleuスコアを平均1.05ポイント改善する。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。