論文の概要: Variable-Length Audio Fingerprinting
- arxiv url: http://arxiv.org/abs/2603.23947v1
- Date: Wed, 25 Mar 2026 05:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.139697
- Title: Variable-Length Audio Fingerprinting
- Title(参考訳): 可変長オーディオフィンガープリント
- Authors: Hongjie Chen, Hanyu Meng, Huimin Zeng, Ryan A. Rossi, Lie Lu, Josh Kimball,
- Abstract要約: 本稿では,可変長フィンガープリントをサポートする新しい手法である可変長オーディオフィンガープリンティング(VLAFP)を提案する。
実験の結果,VLAFPは実世界の3つのデータセットのライブ音声識別と音声検索において,既存の最先端技術よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 41.33126489602743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio fingerprinting converts audio to much lower-dimensional representations, allowing distorted recordings to still be recognized as their originals through similar fingerprints. Existing deep learning approaches rigidly fingerprint fixed-length audio segments, thereby neglecting temporal dynamics during segmentation. To address limitations due to this rigidity, we propose Variable-Length Audio FingerPrinting (VLAFP), a novel method that supports variable-length fingerprinting. To the best of our knowledge, VLAFP is the first deep audio fingerprinting model capable of processing audio of variable length, for both training and testing. Our experiments show that VLAFP outperforms existing state-of-the-arts in live audio identification and audio retrieval across three real-world datasets.
- Abstract(参考訳): オーディオフィンガープリントはオーディオをはるかに低次元の表現に変換するため、歪んだ録音を類似の指紋を通して元のものと認識することができる。
既存のディープラーニングアプローチは、固定長オーディオセグメントを厳格にフィンガープリントし、セグメント化時の時間的ダイナミクスを無視する。
この剛性による制約に対処するため,可変長フィンガープリンティング(VLAFP)を提案する。
我々の知る限り、VLAFPは、トレーニングとテストの両方のために、可変長のオーディオを処理できる最初のディープオーディオフィンガープリントモデルである。
実験の結果,VLAFPは実世界の3つのデータセットのライブ音声識別と音声検索において,既存の最先端技術よりも優れていることがわかった。
関連論文リスト
- Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance [65.82811567989506]
セグメント長が音声フィンガープリント性能に与える影響について検討する。
以上の結果から, 短区間長(0.5秒)は一般に性能が向上することが示された。
本研究は,大規模ニューラルオーディオ検索システムにおけるセグメント長選択のための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-25T04:32:32Z) - Robust Neural Audio Fingerprinting using Music Foundation Models [6.130921388161775]
我々は,その堅牢性向上を目的としたニューラルオーディオフィンガープリント技術を開発し,評価する。
ニューラルフィンガープリント手法に2つの貢献をする: 1) トレーニング済みの音楽基盤モデルをニューラルアーキテクチャのバックボーンとして利用する。
NAFPとGraFPrintの2つの最先端のニューラルフィンガープリントモデルと比較して,本手法を体系的に評価した。
論文 参考訳(メタデータ) (2025-11-07T16:25:59Z) - Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges [0.0]
本研究では,AIとMLを統合した音声フィンガープリントアルゴリズムを提案する。
性能評価は、5秒の音声入力で100%精度が保証される。
本研究は音声フィンガープリントの適応性を向上し,様々な環境や応用における課題に対処する。
論文 参考訳(メタデータ) (2024-02-21T17:37:30Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。
オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。
実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Contrastive Unsupervised Learning for Audio Fingerprinting [17.151852490643805]
音声指紋認証(AFP)におけるコントラスト学習の考え方について紹介する。
我々は、異なるオーディオトラックを異種として検討しながら、オーディオトラックとその異なる歪曲バージョンを類似とみなす。
モーメントコントラスト(MoCo)の枠組みに基づいて,識別的かつ堅牢な指紋を生成できるAFPのコントラスト学習手法を考案した。
論文 参考訳(メタデータ) (2020-10-26T12:49:39Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。