論文の概要: Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges
- arxiv url: http://arxiv.org/abs/2402.13957v2
- Date: Sat, 1 Jun 2024 21:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:38:05.131683
- Title: Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges
- Title(参考訳): 背景雑音と歪みに対処したオーディオフィンガープリント精度の向上
- Authors: Navin Kamuni, Sathishkumar Chintala, Naveen Kunchakuri, Jyothi Swaroop Arlagadda Narasimharaju, Venkat Kumar,
- Abstract要約: 本研究では,AIとMLを統合した音声フィンガープリントアルゴリズムを提案する。
性能評価は、5秒の音声入力で100%精度が保証される。
本研究は音声フィンガープリントの適応性を向上し,様々な環境や応用における課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio fingerprinting, exemplified by pioneers like Shazam, has transformed digital audio recognition. However, existing systems struggle with accuracy in challenging conditions, limiting broad applicability. This research proposes an AI and ML integrated audio fingerprinting algorithm to enhance accuracy. Built on the Dejavu Project's foundations, the study emphasizes real-world scenario simulations with diverse background noises and distortions. Signal processing, central to Dejavu's model, includes the Fast Fourier Transform, spectrograms, and peak extraction. The "constellation" concept and fingerprint hashing enable unique song identification. Performance evaluation attests to 100% accuracy within a 5-second audio input, with a system showcasing predictable matching speed for efficiency. Storage analysis highlights the critical space-speed trade-off for practical implementation. This research advances audio fingerprinting's adaptability, addressing challenges in varied environments and applications.
- Abstract(参考訳): Shazamのような先駆者たちによるオーディオフィンガープリントは、デジタル音声認識を変革した。
しかし、既存のシステムは困難条件下での精度に苦しむため、適用範囲は限られている。
本研究では,AIとMLを統合した音声フィンガープリントアルゴリズムを提案する。
Dejavu Projectの基礎の上に構築されたこの研究は、様々な背景ノイズと歪みを伴う実世界のシナリオシミュレーションを強調している。
信号処理はデジャヴのモデルの中心であり、高速フーリエ変換、スペクトログラム、ピーク抽出を含む。
コンステレーション」の概念と指紋ハッシュは、ユニークな歌の識別を可能にする。
性能評価は、5秒の音声入力で100%精度を証明し、予測可能なマッチング速度を効率よく示すシステムを示す。
ストレージ分析は、実用的な実装のための重要な宇宙速度トレードオフを強調している。
本研究は音声フィンガープリントの適応性を向上し,様々な環境や応用における課題に対処する。
関連論文リスト
- Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Music Augmentation and Denoising For Peak-Based Audio Fingerprinting [0.0]
我々は,音楽スニペットにノイズを加える新しいオーディオ拡張パイプラインを現実的に導入し,リリースする。
次に、スペクトルからノイズの多い成分を除去するディープラーニングモデルを提案し、リリースする。
ノイズ条件下であっても,本モデルの追加により,一般的な音声指紋認証システムの識別性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T09:56:22Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - EchoVest: Real-Time Sound Classification and Depth Perception Expressed
through Transcutaneous Electrical Nerve Stimulation [0.0]
我々は、視覚障害者や聴覚障害者が自分の環境をより直感的に認識できるように、新しい補助デバイス、EchoVestを開発した。
EchoVestは、音の音源に基づいて経皮的電気神経刺激(TENS)を利用して、ユーザの身体に振動を伝達する。
我々は、CNNベースの機械学習モデルよりも精度と計算コストにおいて、分類タスクに最もよく使用される機械学習モデルより優れていることを目指していた。
論文 参考訳(メタデータ) (2023-07-10T14:43:32Z) - Adaptive ship-radiated noise recognition with learnable fine-grained
wavelet transform [25.887932248706218]
本稿では,適応型一般化認識システム AGNet を提案する。
固定ウェーブレットパラメータをきめ細かな学習可能なパラメータに変換することにより、AGNetは異なる周波数で水中音の特性を学習する。
実験の結果、AGNetは水中音響データセットのベースライン法を全て上回っていることがわかった。
論文 参考訳(メタデータ) (2023-05-31T06:56:01Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Data Uncertainty Guided Noise-aware Preprocessing Of Fingerprints [5.740220134446289]
本稿では,入力画像に存在する雑音を定量化し,背景雑音やリッジの明度が低い指紋領域を識別する,データ不確実性に基づくフレームワークを提案する。
ノイズの定量化は、2つの折りたたみモデルに役立つ: まず、目的関数を特定の入力指紋のノイズに適応させ、その結果、ノイズや歪んだ指紋領域の堅牢な性能を達成する。
予測ノイズ分散マップは、入力画像に存在するノイズによる誤予測をエンドユーザが理解できるようにする。
論文 参考訳(メタデータ) (2021-07-02T19:47:58Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。