論文の概要: Leveraging Category Information for Single-Frame Visual Sound Source
Separation
- arxiv url: http://arxiv.org/abs/2007.07984v2
- Date: Fri, 16 Apr 2021 14:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:12:07.327116
- Title: Leveraging Category Information for Single-Frame Visual Sound Source
Separation
- Title(参考訳): 単一フレーム視覚音源分離のためのカテゴリ情報の活用
- Authors: Lingyu Zhu and Esa Rahtu
- Abstract要約: 単一のビデオフレームのみを用いて,視覚的音源分離のための簡易かつ効率的なモデルについて検討する。
我々のモデルは分離過程における音源カテゴリの情報を利用することができる。
- 参考スコア(独自算出の注目度): 15.26733033527393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual sound source separation aims at identifying sound components from a
given sound mixture with the presence of visual cues. Prior works have
demonstrated impressive results, but with the expense of large multi-stage
architectures and complex data representations (e.g. optical flow
trajectories). In contrast, we study simple yet efficient models for visual
sound separation using only a single video frame. Furthermore, our models are
able to exploit the information of the sound source category in the separation
process. To this end, we propose two models where we assume that i) the
category labels are available at the training time, or ii) we know if the
training sample pairs are from the same or different category. The experiments
with the MUSIC dataset show that our model obtains comparable or better
performance compared to several recent baseline methods. The code is available
at
https://github.com/ly-zhu/Leveraging-Category-Information-for-Single-Frame-Visual-Sound-Source-Separ ation
- Abstract(参考訳): 視覚音源分離は、所定の音響混合物からの音響成分と視覚手がかりの存在を識別することを目的としている。
先行研究は印象的な結果を示しているが、大規模な多段階アーキテクチャと複雑なデータ表現(光フロー軌道など)を犠牲にしている。
対照的に、単一のビデオフレームのみを用いて、視覚的音源分離のための簡易かつ効率的なモデルについて検討する。
さらに,本モデルでは,分離過程における音源カテゴリの情報を活用することができる。
この目的のために、我々は2つのモデルを提案します。
i) カテゴリラベルは、トレーニング時に利用可能である場合、又は
二 トレーニングサンプルペアが同一又は異なるカテゴリーのものであるかどうかを知っています。
MUSICデータセットを用いた実験により,本モデルでは,最近のベースライン法と比較して,同等あるいは優れた性能が得られることが示された。
コードはhttps://github.com/ly-zhu/Leveraging-Category-Information-for-Single-Frame-Visual-Sound-Source-Separ ationで公開されている。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。