Fugu-MT 論文翻訳(概要): PitchNet: A Fully Convolutional Neural Network for Pitch Estimation

論文の概要: PitchNet: A Fully Convolutional Neural Network for Pitch Estimation

arxiv url: http://arxiv.org/abs/2308.07170v1
Date: Mon, 14 Aug 2023 14:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 12:57:02.425169
Title: PitchNet: A Fully Convolutional Neural Network for Pitch Estimation
Title（参考訳）: PitchNet: ピッチ推定のための完全な畳み込みニューラルネットワーク
Authors: Jeremy Cochoy
Abstract要約: ピッチ抽出は、音楽と音処理の領域において重要な役割を担っている。ピッチネット(PitchNet)は、人間の歌声からのピッチ抽出に適した畳み込みニューラルネットワークである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the domain of music and sound processing, pitch extraction plays a pivotal role. This research introduces "PitchNet", a convolutional neural network tailored for pitch extraction from the human singing voice, including acapella performances. Integrating autocorrelation with deep learning techniques, PitchNet aims to optimize the accuracy of pitch detection. Evaluation across datasets comprising synthetic sounds, opera recordings, and time-stretched vowels demonstrates its efficacy. This work paves the way for enhanced pitch extraction in both music and voice settings.
Abstract（参考訳）: 音楽と音処理の分野では、ピッチ抽出が重要な役割を果たす。本研究では,アカペラ演奏を含む人間の歌声からのピッチ抽出に適した畳み込みニューラルネットワークである"PitchNet"を紹介する。 PitchNetは、自己相関とディープラーニング技術を統合することで、ピッチ検出の精度を最適化することを目指している。合成音、オペラ録音、時間伸長母音からなるデータセット間の評価は、その有効性を示す。この作品は、音楽と音声の両方の設定でピッチ抽出を強化している。

関連論文リスト

Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文参考訳（メタデータ） (2024-10-27T18:15:18Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文参考訳（メタデータ） (2023-09-01T06:40:41Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文参考訳（メタデータ） (2022-02-12T10:36:52Z)
Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-11-17T14:31:55Z)
An Empirical Study on End-to-End Singing Voice Synthesis with Encoder-Decoder Architectures [11.440111473570196]
歌唱音声合成を実現するために,エンコーダ・デコーダニューラルモデルと多数のボコーダを用いる。本研究は,音声データと音声情報,歌詞,ビート情報を用いて,モデルが訓練可能であることを示す実験である。
論文参考訳（メタデータ） (2021-08-06T08:51:16Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文参考訳（メタデータ） (2020-08-05T10:05:44Z)
Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文参考訳（メタデータ） (2020-07-13T12:35:45Z)
AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos with Deep Learning [5.33024001730262]
ビデオの代表的なオーディオトラックを合成するのに使用できる、完全に自動化されたディープラーニングツールであるAutoFoleyを紹介する。 AutoFoleyは、ビデオに関連付けられた対応するオーディオファイルがないアプリケーションや、重要なシナリオを特定する必要がある場合でも使用できる。実験により, 合成した音は, 関連した視覚入力の正確な時間同期でリアルに表現されていることがわかった。
論文参考訳（メタデータ） (2020-02-21T09:08:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。