論文の概要: PSST! Prosodic Speech Segmentation with Transformers
- arxiv url: http://arxiv.org/abs/2302.01984v1
- Date: Fri, 3 Feb 2023 20:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 21:01:23.030215
- Title: PSST! Prosodic Speech Segmentation with Transformers
- Title(参考訳): PSST!
トランスフォーマによる韻律音声セグメンテーション
- Authors: Nathan Roll, Calbert Graham, Simon Todd
- Abstract要約: 事前訓練されたSTTモデルであるWhisperは、低周波トークンを再取得することで、単位境界に注釈を付ける。
提案手法は95.8%の精度を達成し,大規模ラベル付きデータを必要とせず,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.3535770763481905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention mechanisms have enabled transformers to achieve
superhuman-level performance on many speech-to-text (STT) tasks, yet the
challenge of automatic prosodic segmentation has remained unsolved. In this
paper we finetune Whisper, a pretrained STT model, to annotate intonation unit
(IU) boundaries by repurposing low-frequency tokens. Our approach achieves an
accuracy of 95.8%, outperforming previous methods without the need for
large-scale labeled data or enterprise grade compute resources. We also
diminish input signals by applying a series of filters, finding that low pass
filters at a 3.2 kHz level improve segmentation performance in out of sample
and out of distribution contexts. We release our model as both a transcription
tool and a baseline for further improvements in prosodic segmentation.
- Abstract(参考訳): 自己認識機構により、多くの音声テキスト(STT)タスクにおいてトランスフォーマーが超人間レベルのパフォーマンスを達成することができるが、自動韻律分割の課題は未解決のままである。
本稿では,事前学習したsttモデルであるwhisperを用いて,低周波トークンの再設定によるイントネーション単位 (iu) 境界のアノテートを行う。
提案手法は95.8%の精度を達成し,大規模ラベル付きデータやエンタープライズグレードの計算資源を必要とせず,従来の手法よりも優れている。
また、一連のフィルタを適用して入力信号を低減し、3.2kHzの低域通過フィルタはサンプル外および分布コンテキスト外におけるセグメンテーション性能を向上させる。
我々は,韻律セグメンテーションのさらなる改善のために,転写ツールとベースラインとしてモデルをリリースする。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation [70.87670058323239]
文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準のTransformerモデルに直接入力することである。
本研究は,少量のトークンを選択する軽量注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
論文 参考訳(メタデータ) (2023-09-25T14:33:47Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Augmenting Transformer-Transducer Based Speaker Change Detection With
Token-Level Training Loss [15.304831835680847]
本稿では,Transformer-Transducer (T-T) に基づく話者変化検出(SCD) の性能を向上させる新しいトークンベースのトレーニング戦略を提案する。
学習データに話者が変化しているため、従来のT-TベースのSCDモデル損失は、準最適検出精度をもたらす。
論文 参考訳(メタデータ) (2022-11-11T21:09:58Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition [28.06475768075206]
非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。
エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2021-06-18T02:58:30Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。