論文の概要: Contrastive Unsupervised Learning for Audio Fingerprinting
- arxiv url: http://arxiv.org/abs/2010.13540v1
- Date: Mon, 26 Oct 2020 12:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:25:17.289536
- Title: Contrastive Unsupervised Learning for Audio Fingerprinting
- Title(参考訳): 音声フィンガープリントのための教師なし学習
- Authors: Zhesong Yu, Xingjian Du, Bilei Zhu, Zejun Ma
- Abstract要約: 音声指紋認証(AFP)におけるコントラスト学習の考え方について紹介する。
我々は、異なるオーディオトラックを異種として検討しながら、オーディオトラックとその異なる歪曲バージョンを類似とみなす。
モーメントコントラスト(MoCo)の枠組みに基づいて,識別的かつ堅牢な指紋を生成できるAFPのコントラスト学習手法を考案した。
- 参考スコア(独自算出の注目度): 17.151852490643805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of video-sharing platforms has attracted more and more people to
shoot videos and upload them to the Internet. These videos mostly contain a
carefully-edited background audio track, where serious speech change, pitch
shifting and various types of audio effects may involve, and existing audio
identification systems may fail to recognize the audio. To solve this problem,
in this paper, we introduce the idea of contrastive learning to the task of
audio fingerprinting (AFP). Contrastive learning is an unsupervised approach to
learn representations that can effectively group similar samples and
discriminate dissimilar ones. In our work, we consider an audio track and its
differently distorted versions as similar while considering different audio
tracks as dissimilar. Based on the momentum contrast (MoCo) framework, we
devise a contrastive learning method for AFP, which can generate fingerprints
that are both discriminative and robust. A set of experiments showed that our
AFP method is effective for audio identification, with robustness to serious
audio distortions, including the challenging speed change and pitch shifting.
- Abstract(参考訳): ビデオ共有プラットフォームの台頭により、動画を撮影してインターネットにアップロードする人がますます増えている。
これらのビデオは、主に注意深く編集されたバックグラウンドオーディオトラックを含んでおり、深刻な音声変化、ピッチシフト、様々な種類のオーディオ効果が関与し、既存のオーディオ識別システムはオーディオを認識できない可能性がある。
そこで本稿では,音声フィンガープリント(AFP)の課題に対して,コントラスト学習という概念を導入する。
コントラスト学習は、類似したサンプルを効果的にグループ化し、類似したものを識別できる表現を学ぶための教師なしのアプローチである。
本研究では、オーディオトラックとその変形したバージョンを類似としつつ、異なるオーディオトラックを類似と捉えた。
モーメントコントラスト(MoCo)の枠組みに基づいて,識別的かつ堅牢な指紋を生成できるAFPのコントラスト学習手法を考案した。
実験の結果,afp法が音響同定に有効であり,音速変化やピッチシフトの難易度などの重大な音響歪みに対する頑健性が示された。
関連論文リスト
- AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。