論文の概要: MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription
- arxiv url: http://arxiv.org/abs/2108.02625v1
- Date: Thu, 5 Aug 2021 13:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 16:50:21.107083
- Title: MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription
- Title(参考訳): MSTRE-Net: 自動歌詞転写のためのマルチストリーミング音響モデル
- Authors: Emir Demirel, Sven Ahlb\"ack, Simon Dixon
- Abstract要約: 本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
- 参考スコア(独自算出の注目度): 8.669338893753885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper makes several contributions to automatic lyrics transcription
(ALT) research. Our main contribution is a novel variant of the Multistreaming
Time-Delay Neural Network (MTDNN) architecture, called MSTRE-Net, which
processes the temporal information using multiple streams in parallel with
varying resolutions keeping the network more compact, and thus with a faster
inference and an improved recognition rate than having identical TDNN streams.
In addition, two novel preprocessing steps prior to training the acoustic model
are proposed. First, we suggest using recordings from both monophonic and
polyphonic domains during training the acoustic model. Second, we tag
monophonic and polyphonic recordings with distinct labels for discriminating
non-vocal silence and music instances during alignment. Moreover, we present a
new test set with a considerably larger size and a higher musical variability
compared to the existing datasets used in ALT literature, while maintaining the
gender balance of the singers. Our best performing model sets the
state-of-the-art in lyrics transcription by a large margin. For
reproducibility, we publicly share the identifiers to retrieve the data used in
this paper.
- Abstract(参考訳): 本稿では,alt(automatic lyrics transcription)研究にいくつかの貢献をする。
mstre-net(multistreaming time-delay neural network, mtdnn)アーキテクチャの新たな変種であるmstre-netは,複数のストリームを並行して処理し,ネットワークをよりコンパクトにすることで,同一のtdnnストリームよりも高速な推論と認識率の向上を実現している。
また,音響モデルの学習に先立つ2つの新しい前処理ステップを提案する。
まず,音響モデルの学習中に単音域と多声領域の両方から録音することを提案する。
第2に,単音とポリフォニックの録音を異なるラベルでタグ付けし,非ボーカル的な沈黙と音楽のインスタンスをアライメント中に識別する。
さらに,歌手の性別バランスを保ちつつ,ALT文献で使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
我々の最高の演奏モデルは、歌詞の書き起こしの最先端を大きな利幅で設定する。
再現性のために,本論文で使用されるデータを取得する識別子を公開する。
関連論文リスト
- C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文 参考訳(メタデータ) (2023-05-25T05:02:35Z) - Musical Voice Separation as Link Prediction: Modeling a Musical
Perception Task as a Multi-Trajectory Tracking Problem [6.617487928813374]
本論文は,ポリフォニック音楽作品において,異なる相互作用する声,すなわちモノフォニック・メロディック・ストリームを分離する知覚的タスクを目標とする。
我々はこのタスクを、離散的な観測、すなわちピッチ時間空間における音符から、MTT(Multi-Trajectory Tracking)問題としてモデル化する。
提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。
論文 参考訳(メタデータ) (2023-04-28T13:48:00Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Automatic Lyrics Transcription using Dilated Convolutional Neural
Networks with Self-Attention [11.232541198648159]
モノフォニックカラオケ記録における自己注意による畳み込み時間遅延ニューラルネットワークの訓練を行った。
本システムでは,歌詞の自動書き起こしにおける最先端の大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-07-13T16:36:30Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。