論文の概要: Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural
Network with Language Model-Based Regularized Training
- arxiv url: http://arxiv.org/abs/2010.03749v1
- Date: Thu, 8 Oct 2020 03:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 13:09:00.777582
- Title: Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural
Network with Language Model-Based Regularized Training
- Title(参考訳): 言語モデルに基づく正規化学習を用いた畳み込み型リカレントニューラルネットワークに基づくタトゥムレベルドラム転写
- Authors: Ryoto Ishizuka, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii
- Abstract要約: 本稿では,音楽信号からドラムの開始時刻を$textittatum$レベルで検出するニューラルドラムの書き起こし手法について述べる。
- 参考スコア(独自算出の注目度): 20.69310034107256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a neural drum transcription method that detects from
music signals the onset times of drums at the $\textit{tatum}$ level, where
tatum times are assumed to be estimated in advance. In conventional studies on
drum transcription, deep neural networks (DNNs) have often been used to take a
music spectrogram as input and estimate the onset times of drums at the
$\textit{frame}$ level. The major problem with such frame-to-frame DNNs,
however, is that the estimated onset times do not often conform with the
typical tatum-level patterns appearing in symbolic drum scores because the
long-term musically meaningful structures of those patterns are difficult to
learn at the frame level. To solve this problem, we propose a regularized
training method for a frame-to-tatum DNN. In the proposed method, a tatum-level
probabilistic language model (gated recurrent unit (GRU) network or
repetition-aware bi-gram model) is trained from an extensive collection of drum
scores. Given that the musical naturalness of tatum-level onset times can be
evaluated by the language model, the frame-to-tatum DNN is trained with a
regularizer based on the pretrained language model. The experimental results
demonstrate the effectiveness of the proposed regularized training method.
- Abstract(参考訳): 本稿では,タタムタイムを事前に推定した$\textit{tatum}$レベルにおけるドラムの開始時刻を音楽信号から検出するニューラルドラム転写法について述べる。
ドラムの書き起こしに関する従来の研究では、ディープニューラルネットワーク(DNN)は入力として音楽スペクトログラムを取り、$\textit{frame}$レベルでドラムの開始時刻を推定するためによく用いられてきた。
しかし、このようなフレーム間DNNの大きな問題は、これらのパターンの長期的意味のある構造はフレームレベルでの学習が困難であるため、推定開始時刻が象徴的なドラムスコアに現れる典型的なタトゥムレベルのパターンに適合しないことである。
そこで本研究では,フレーム・トゥ・タトゥムDNNのための正規化学習手法を提案する。
提案手法では,広範囲なドラムスコアの収集から,タトゥムレベルの確率言語モデル(ゲート・リカレント・ユニット(GRU)ネットワークまたは繰り返し認識バイグラム・モデル)を訓練する。
タトゥムレベルの開始時刻の音楽的自然性は言語モデルにより評価できるので、事前訓練された言語モデルに基づいてフレーム・トゥ・タトゥムDNNを正規化器で訓練する。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Global Structure-Aware Drum Transcription Based on Self-Attention
Mechanisms [18.5148472561169]
本稿では、音楽信号からタタムレベルのドラムスコアを直接推定する自動ドラム転写(ADT)法について述べる。
ドラムスコアのグローバル反復構造を捉えるために,タタム同期位置符号化を用いた自己アテンション機構をデコーダに導入する。
実験の結果,提案モデルがタタムレベル誤差率とフレームレベルf測定値で従来のrnnモデルを上回ることがわかった。
論文 参考訳(メタデータ) (2021-05-12T17:04:16Z) - Hierarchical Recurrent Neural Networks for Conditional Melody Generation
with Long-term Structure [0.0]
階層型リカレントニューラルネットワークを用いた条件付きメロディ生成モデルを提案する。
このモデルは、与えられたコード伴奏に基づいて長期構造を持つメロディーを生成する。
聴取試験の結果,CM-HRNNは長期的構造と総合評価においてアテンションRNNよりも優れていた。
論文 参考訳(メタデータ) (2021-02-19T08:22:26Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Recurrent babbling: evaluating the acquisition of grammar from limited
input data [0.30458514384586405]
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、生の言語入力から構文の様々な側面を捉えることが示されている。
本稿では,子育て入力の現実的な大きさのサブセットに対して,LSTM(Long Short-Term Memory Network)をトレーニングすることで,この状況を改善する。
論文 参考訳(メタデータ) (2020-10-09T15:30:05Z) - Echo State Neural Machine Translation [7.496705711191467]
我々は、エコー状態ネットワーク(ESN)にインスパイアされたニューラルマシン翻訳(NMT)モデル、エコー状態NMT(ESNMT)を提案する。
この極めて単純なモデル構築およびトレーニング手順であっても、ESNMTは、完全にトレーニング可能なベースラインの70-80%の品質に達していることを示す。
論文 参考訳(メタデータ) (2020-02-27T00:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。