論文の概要: Leveraging Category Information for Single-Frame Visual Sound Source
Separation
- arxiv url: http://arxiv.org/abs/2007.07984v2
- Date: Fri, 16 Apr 2021 14:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:12:07.327116
- Title: Leveraging Category Information for Single-Frame Visual Sound Source
Separation
- Title(参考訳): 単一フレーム視覚音源分離のためのカテゴリ情報の活用
- Authors: Lingyu Zhu and Esa Rahtu
- Abstract要約: 単一のビデオフレームのみを用いて,視覚的音源分離のための簡易かつ効率的なモデルについて検討する。
我々のモデルは分離過程における音源カテゴリの情報を利用することができる。
- 参考スコア(独自算出の注目度): 15.26733033527393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual sound source separation aims at identifying sound components from a
given sound mixture with the presence of visual cues. Prior works have
demonstrated impressive results, but with the expense of large multi-stage
architectures and complex data representations (e.g. optical flow
trajectories). In contrast, we study simple yet efficient models for visual
sound separation using only a single video frame. Furthermore, our models are
able to exploit the information of the sound source category in the separation
process. To this end, we propose two models where we assume that i) the
category labels are available at the training time, or ii) we know if the
training sample pairs are from the same or different category. The experiments
with the MUSIC dataset show that our model obtains comparable or better
performance compared to several recent baseline methods. The code is available
at
https://github.com/ly-zhu/Leveraging-Category-Information-for-Single-Frame-Visual-Sound-Source-Separ ation
- Abstract(参考訳): 視覚音源分離は、所定の音響混合物からの音響成分と視覚手がかりの存在を識別することを目的としている。
先行研究は印象的な結果を示しているが、大規模な多段階アーキテクチャと複雑なデータ表現(光フロー軌道など)を犠牲にしている。
対照的に、単一のビデオフレームのみを用いて、視覚的音源分離のための簡易かつ効率的なモデルについて検討する。
さらに,本モデルでは,分離過程における音源カテゴリの情報を活用することができる。
この目的のために、我々は2つのモデルを提案します。
i) カテゴリラベルは、トレーニング時に利用可能である場合、又は
二 トレーニングサンプルペアが同一又は異なるカテゴリーのものであるかどうかを知っています。
MUSICデータセットを用いた実験により,本モデルでは,最近のベースライン法と比較して,同等あるいは優れた性能が得られることが示された。
コードはhttps://github.com/ly-zhu/Leveraging-Category-Information-for-Single-Frame-Visual-Sound-Source-Separ ationで公開されている。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion
Models [49.62299756133055]
DAVISはディフュージョンモデルに基づくオーディオビザ分離フレームワークであり、音声-視覚的音源分離タスクを生成的方法で解決する。
DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVEデータセット上で、既存の最先端の識別的オーディオ視覚分離手法と比較する。
以上の結果から,DAVISは他の手法よりも品質が優れており,音声・視覚的音源分離タスクに対処するためのフレームワークの利点が示された。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Benchmarks and leaderboards for sound demixing tasks [68.8204255655161]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - A Closer Look at Audio-Visual Segmentation [19.628146028102027]
コスト効率と比較的偏りのない音声視覚的セマンティックセグメンテーションベンチマークを構築するための新しい戦略を提案する。
本稿では,新たな画素単位の音声・視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。