論文の概要: Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning
- arxiv url: http://arxiv.org/abs/2010.08737v2
- Date: Mon, 11 Jan 2021 12:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:33:48.378320
- Title: Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning
- Title(参考訳): 音声類似度学習を用いた音声に基づく近重複映像検索
- Authors: Pavlos Avgoustinakis, Giorgos Kordopatis-Zilos, Symeon Papadopoulos,
Andreas L. Symeonidis, Ioannis Kompatsiaris
- Abstract要約: ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
- 参考スコア(独自算出の注目度): 19.730467023817123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of audio-based near-duplicate video
retrieval. We propose the Audio Similarity Learning (AuSiL) approach that
effectively captures temporal patterns of audio similarity between video pairs.
For the robust similarity calculation between two videos, we first extract
representative audio-based video descriptors by leveraging transfer learning
based on a Convolutional Neural Network (CNN) trained on a large scale dataset
of audio events, and then we calculate the similarity matrix derived from the
pairwise similarity of these descriptors. The similarity matrix is subsequently
fed to a CNN network that captures the temporal structures existing within its
content. We train our network following a triplet generation process and
optimizing the triplet loss function. To evaluate the effectiveness of the
proposed approach, we have manually annotated two publicly available video
datasets based on the audio duplicity between their videos. The proposed
approach achieves very competitive results compared to three state-of-the-art
methods. Also, unlike the competing methods, it is very robust to the retrieval
of audio duplicates generated with speed transformations.
- Abstract(参考訳): 本研究では,音声による近距離映像検索の課題に対処する。
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
2つのビデオ間のロバストな類似度計算のために,まず,音声イベントの大規模データセットで訓練された畳み込みニューラルネットワーク(cnn)に基づくトランスファー学習を利用して,代表的な音声ベースのビデオ記述子を抽出し,その類似度行列をそれらの記述子のペアワイズ類似度から求めた。
類似性行列はその後cnnネットワークに供給され、コンテンツ内に存在する時間的構造をキャプチャする。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法の有効性を評価するため,ビデオ間の音声重複に基づく2つの公開映像データセットを手動でアノテートした。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
また、競合する手法とは異なり、速度変換によって生成されたオーディオ重複の検索に非常に頑健である。
関連論文リスト
- Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval [3.5570874721859016]
本稿では,複数の検索モデルを推定文を使わずに訓練する2段階の訓練手法を提案する。
第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。
提案手法をClosoV2とAudioCapsベンチマークで評価し, 自己蒸留条件が制限された場合でも, 検索性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-21T14:10:58Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Semi-supervised 3D Video Information Retrieval with Deep Neural Network
and Bi-directional Dynamic-time Warping Algorithm [14.39527406033429]
提案アルゴリズムは,大規模なビデオデータセットを処理し,最も関連性の高い映像を検索ビデオクリップに検索するように設計されている。
候補と調査ビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダ支援のディープニューラルネットワークを用いて表現ベクトルに変換する。
次に, 双方向動的時間ワープ法を用いて, 埋め込みベクトル列間の類似度を計算した。
論文 参考訳(メタデータ) (2023-09-03T03:10:18Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - End-to-End Lip Synchronisation Based on Pattern Classification [15.851638021923875]
本稿では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドトレーニングネットワークを提案する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T11:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。