論文の概要: Localizing Visual Sounds the Hard Way
- arxiv url: http://arxiv.org/abs/2104.02691v1
- Date: Tue, 6 Apr 2021 17:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 15:32:13.549950
- Title: Localizing Visual Sounds the Hard Way
- Title(参考訳): 難易度の高い視覚音のローカライズ
- Authors: Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea
Vedaldi, Andrew Zisserman
- Abstract要約: 音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
- 参考スコア(独自算出の注目度): 149.84890978170174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this work is to localize sound sources that are visible in a
video without using manual annotations. Our key technical contribution is to
show that, by training the network to explicitly discriminate challenging image
fragments, even for images that do contain the object emitting the sound, we
can significantly boost the localization performance. We do so elegantly by
introducing a mechanism to mine hard samples and add them to a contrastive
learning formulation automatically. We show that our algorithm achieves
state-of-the-art performance on the popular Flickr SoundNet dataset.
Furthermore, we introduce the VGG-Sound Source (VGG-SS) benchmark, a new set of
annotations for the recently-introduced VGG-Sound dataset, where the sound
sources visible in each video clip are explicitly marked with bounding box
annotations. This dataset is 20 times larger than analogous existing ones,
contains 5K videos spanning over 200 categories, and, differently from Flickr
SoundNet, is video-based. On VGG-SS, we also show that our algorithm achieves
state-of-the-art performance against several baselines.
- Abstract(参考訳): 本研究の目的は,手動のアノテーションを使わずにビデオで見られる音源をローカライズすることである。
我々の重要な技術的貢献は、音を発する物体を含む画像であっても、難解な画像断片を明示的に識別するようにネットワークを訓練することで、位置付け性能を大幅に向上させることである。
私たちは、ハードサンプルをマイニングするメカニズムを導入し、それを対照的な学習形式に自動的に追加することで、非常にエレガントにします。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
さらに、最近導入されたVGG-Soundデータセットに対する新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを導入し、各ビデオクリップに表示される音源にバウンディングボックスアノテーションを明示的にマークする。
このデータセットは、類似の既存のものより20倍大きく、200以上のカテゴリにまたがる5Kビデオを含み、Flickr SoundNetとは違い、ビデオベースである。
VGG-SSでは,提案アルゴリズムが複数のベースラインに対して最先端の性能を達成することを示す。
関連論文リスト
- Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Audio-Visual Glance Network for Efficient Video Recognition [17.95844876568496]
本稿では,映像の時間的に重要な部分を効率的に処理するためのオーディオ・ビジュアル・ネットワーク(AVGN)を提案する。
我々は,各フレームのサリエンシスコアを推定するAV-TeST (Audio-Visual Temporal Saliency Transformer) を用いた。
AVGNの堅牢性と有効性を高めるため,様々なトレーニング手法とマルチモーダル特徴融合を取り入れた。
論文 参考訳(メタデータ) (2023-08-18T05:46:20Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。