論文の概要: Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2010.11910v4
- Date: Wed, 10 Feb 2021 08:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:36:18.080633
- Title: Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning
- Title(参考訳): コントラスト学習に基づく高固有音声検索のためのニューラルオーディオ指紋
- Authors: Sungkyun Chang, Donmoon Lee, Jeongsoo Park, Hyungui Lim, Kyogu Lee,
Karam Ko, Yoonchang Han
- Abstract要約: セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
- 参考スコア(独自算出の注目度): 14.60531205031547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of existing audio fingerprinting systems have limitations to be used for
high-specific audio retrieval at scale. In this work, we generate a
low-dimensional representation from a short unit segment of audio, and couple
this fingerprint with a fast maximum inner-product search. To this end, we
present a contrastive learning framework that derives from the segment-level
search objective. Each update in training uses a batch consisting of a set of
pseudo labels, randomly selected original samples, and their augmented
replicas. These replicas can simulate the degrading effects on original audio
signals by applying small time offsets and various types of distortions, such
as background noise and room/microphone impulse responses. In the segment-level
search task, where the conventional audio fingerprinting systems used to fail,
our system using 10x smaller storage has shown promising results. Our code and
dataset are available at \url{https://mimbres.github.io/neural-audio-fp/}.
- Abstract(参考訳): 既存の音声指紋認証システムの多くは、大規模に特定の音声検索に使用する制限がある。
本研究では,音声の短い単位セグメントから低次元の表現を生成し,この指紋を高速な内積探索と組み合わせる。
そこで本研究では,セグメントレベルの探索目標から派生したコントラスト学習フレームワークを提案する。
トレーニングの各アップデートは、擬似ラベルのセット、ランダムに選択されたオリジナルのサンプル、追加されたレプリカからなるバッチを使用する。
これらのレプリカは、バックグラウンドノイズや室/マイクロホンのインパルス応答など、小さな時間オフセットと様々な歪みを適用して、元の音声信号に対する劣化効果をシミュレートすることができる。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
私たちのコードとデータセットは \url{https://mimbres.github.io/neural-audio-fp/} で利用可能です。
関連論文リスト
- Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。
従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。
我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。
次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:24:48Z) - Music Augmentation and Denoising For Peak-Based Audio Fingerprinting [0.0]
我々は,音楽スニペットにノイズを加える新しいオーディオ拡張パイプラインを現実的に導入し,リリースする。
次に、スペクトルからノイズの多い成分を除去するディープラーニングモデルを提案し、リリースする。
ノイズ条件下であっても,本モデルの追加により,一般的な音声指紋認証システムの識別性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T09:56:22Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and
Sound Event Detection [0.0]
私たちは、あなただけに耳を傾ける(YOHO)という新しいアプローチを提示します。
フレームベース分類の代わりに音響境界の検出を回帰問題に変換する。
YOHOは、最先端の畳み込みリカレントニューラルネットワークよりも高いF測定値と低いエラー率を得た。
論文 参考訳(メタデータ) (2021-09-01T12:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。