論文の概要: The Mason-Alberta Phonetic Segmenter: A forced alignment system based on
deep neural networks and interpolation
- arxiv url: http://arxiv.org/abs/2310.15425v1
- Date: Tue, 24 Oct 2023 00:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:11:39.190974
- Title: The Mason-Alberta Phonetic Segmenter: A forced alignment system based on
deep neural networks and interpolation
- Title(参考訳): Mason-Alberta音声セグメント:ディープニューラルネットワークと補間に基づく強制アライメントシステム
- Authors: Matthew C. Kelley, Scott James Perry, Benjamin V. Tucker
- Abstract要約: 我々は,新しいニューラルネットワークに基づく強制アライメントシステム,Mason-Alberta Phonetic Segmenter(MAPS)について述べる。
MAPSアライメントは、強制アライメントシステムのために私たちが追求する2つの改善のためのテストベッドとして機能します。
- 参考スコア(独自算出の注目度): 0.8594140167290096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forced alignment systems automatically determine boundaries between segments
in speech data, given an orthographic transcription. These tools are
commonplace in phonetics to facilitate the use of speech data that would be
infeasible to manually transcribe and segment. In the present paper, we
describe a new neural network-based forced alignment system, the Mason-Alberta
Phonetic Segmenter (MAPS). The MAPS aligner serves as a testbed for two
possible improvements we pursue for forced alignment systems. The first is
treating the acoustic model in a forced aligner as a tagging task, rather than
a classification task, motivated by the common understanding that segments in
speech are not truly discrete and commonly overlap. The second is an
interpolation technique to allow boundaries more precise than the common 10 ms
limit in modern forced alignment systems. We compare configurations of our
system to a state-of-the-art system, the Montreal Forced Aligner. The tagging
approach did not generally yield improved results over the Montreal Forced
Aligner. However, a system with the interpolation technique had a 27.92%
increase relative to the Montreal Forced Aligner in the amount of boundaries
within 10 ms of the target on the test set. We also reflect on the task and
training process for acoustic modeling in forced alignment, highlighting how
the output targets for these models do not match phoneticians' conception of
similarity between phones and that reconciliation of this tension may require
rethinking the task and output targets or how speech itself should be
segmented.
- Abstract(参考訳): 強制アライメントシステムは,音声データのセグメント間の境界を自動的に決定する。
これらのツールは、手作業で書き起こしやセグメント化できない音声データの使用を容易にするために、音韻学では一般的である。
本稿では,新しいニューラルネットワークに基づく強制アライメントシステム,Mason-Alberta Phonetic Segmenter(MAPS)について述べる。
MAPSアライメントは、強制アライメントシステムのために私たちが追求する2つの改善のためのテストベッドとして機能します。
第一は、音声のセグメントが真に離散的ではなく、一般的に重複しているという共通の理解によって動機付けられた分類タスクではなく、強制ライナーで音響モデルをタグ付けタスクとして扱うことである。
2つ目は、現代の強制アライメントシステムにおいて一般的な10ミリ秒制限よりも正確な境界を許容する補間技術である。
本システムの構成を最先端システムであるモントリオール強制調整機と比較した。
タギングのアプローチはモントリオール強制アリグナーよりも改善された結果をもたらすことはなかった。
しかし、補間技術を備えたシステムは、試験セット上の目標の10ms以内の境界の量において、モントリオール強制調整機と比較して27.92%増加した。
また,音響モデリングの課題と訓練過程を強制的に調整し,これらのモデルの出力対象が電話との類似性の概念とどのように一致しないか,また,この緊張の解消にはタスクと出力対象の再検討や音声自体のセグメント化が必要となる可能性があることを強調する。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Contrastive Learning-Based Audio to Lyrics Alignment for Multiple
Languages [10.42629447317569]
最先端システムは、確立された音声認識ツールキットを再使用するか、エンドツーエンドのソリューションを設計するかのいずれかである。
本稿では、音声とテキストのドメインをリンクするクロスモーダルな埋め込みを導出するコントラスト学習手法を用いる。
このようにして、エンドツーエンドのトレーニングが簡単で、弱い注釈付きトレーニングデータを使用し、強力なテキストモデルを共同で学習し、アライメントに合わせて調整できる新しいシステムを得る。
論文 参考訳(メタデータ) (2023-06-13T13:01:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - VarArray: Array-Geometry-Agnostic Continuous Speech Separation [26.938313513582642]
マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける音声重なり問題に対処する上で有望であることが示された。
本稿では,アレージオメトリーに依存しない音声分離ニューラルネットワークモデルであるVarArrayを提案する。
論文 参考訳(メタデータ) (2021-10-12T05:31:46Z) - Phone-to-audio alignment without text: A Semi-supervised Approach [8.751201799254323]
テキストに依存しない2つのWav2Vec2ベースのモデルを導入する。
半教師付きモデルであるWav2Vec2-FSは、コントラスト学習とフォワード和損失によって直接音声のアライメントを学習する。
他のモデルであるWav2Vec2-FCは、強制整列ラベルに基づいて訓練されたフレーム分類モデルである。
論文 参考訳(メタデータ) (2021-10-08T03:30:24Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Context-Dependent Acoustic Modeling without Explicit Phone Clustering [45.07737874541304]
音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
論文 参考訳(メタデータ) (2020-05-15T14:45:32Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。