論文の概要: Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2504.06165v1
- Date: Tue, 08 Apr 2025 16:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:29.745049
- Title: Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks
- Title(参考訳): 分光画像と畳み込みニューラルネットワークを用いたリアルタイムピッチ/F0検出
- Authors: Xufang Zhao, Omer Tsimhoni,
- Abstract要約: 本稿では,畳み込みニューラルネットワークと画像処理技術を用いた新しいF0検出手法を提案する。
予測ピッチ輪郭の92%は、真のピッチ輪郭と強いあるいは適度な相関を持つ。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License:
- Abstract: This paper presents a novel approach to detect F0 through Convolutional Neural Networks and image processing techniques to directly estimate pitch from spectrogram images. Our new approach demonstrates a very good detection accuracy; a total of 92% of predicted pitch contours have strong or moderate correlations to the true pitch contours. Furthermore, the experimental comparison between our new approach and other state-of-the-art CNN methods reveals that our approach can enhance the detection rate by approximately 5% across various Signal-to-Noise Ratio conditions.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワークによるF0検出手法と,スペクトル画像から直接ピッチを推定する画像処理手法を提案する。
予測ピッチ輪郭の92%は、真のピッチ輪郭と強いあるいは適度な相関を持つ。
さらに,本手法と他の最先端CNN手法との実験的比較により,様々な信号対雑音比条件で検出率を約5%向上できることがわかった。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Enhanced Wavelet Scattering Network for image inpainting detection [0.0]
本稿では,低レベル雑音解析に基づく塗装前駆体検出のための革新的なアイデアをいくつか提案する。
これはDual-Tree Complex Wavelet Transform (DT-CWT)と畳み込みニューラルネットワーク(CNN)を組み合わせて、偽エリア検出とローカライゼーションを実現している。
提案手法は最先端手法に対してベンチマークを行い,提案手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-25T15:27:05Z) - Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation [57.10353686244835]
我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。
提案手法は, 分枝・分枝リプシッツと組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する楽音線形制約を求める。
提案手法では,既存の手法よりも最大32%の検証ケースが解決されている。
論文 参考訳(メタデータ) (2024-08-23T15:02:09Z) - Direct Zernike Coefficient Prediction from Point Spread Functions and Extended Images using Deep Learning [36.136619420474766]
既存の適応光学系は、収差を補正し、画像を改善するために反復探索アルゴリズムに依存している。
本研究は、光収差を特徴付ける畳み込みニューラルネットワークの応用を実証する。
論文 参考訳(メタデータ) (2024-04-23T17:03:53Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Edge Detection and Deep Learning Based SETI Signal Classification Method [0.0]
バークレーSETI研究センターの科学者が地球外知的生命体(SETI)を探索中
無線信号をフーリエ変換によりスペクトルに変換し、2次元時間周波数スペクトルで表される信号を分類する。
本稿では,背景雑音がスペクトル分類の精度に与える影響を考察し,新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T04:31:48Z) - Conditional Variational Autoencoder for Learned Image Reconstruction [5.487951901731039]
本研究では,未知画像の後部分布を問合せ観測で近似する新しいフレームワークを開発する。
暗黙のノイズモデルと先行処理を処理し、データ生成プロセス(フォワード演算子)を組み込み、学習された再構成特性は異なるデータセット間で転送可能である。
論文 参考訳(メタデータ) (2021-10-22T10:02:48Z) - Lightweight Convolutional Neural Network with Gaussian-based Grasping
Representation for Robotic Grasping Detection [4.683939045230724]
現在の物体検出器は、高い精度と高速な推論速度のバランスを取るのが難しい。
ロボットつかみポーズ推定を行うための効率的かつ堅牢な完全畳み込みニューラルネットワークモデルを提案する。
ネットワークは、他の優れたアルゴリズムよりも桁違いに小さい順序です。
論文 参考訳(メタデータ) (2021-01-25T16:36:53Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。