論文の概要: Mix and Localize: Localizing Sound Sources in Mixtures
- arxiv url: http://arxiv.org/abs/2211.15058v1
- Date: Mon, 28 Nov 2022 04:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:41:15.768492
- Title: Mix and Localize: Localizing Sound Sources in Mixtures
- Title(参考訳): Mix and Localize: 音源のミキサー内局在化
- Authors: Xixi Hu, Ziyang Chen, Andrew Owens
- Abstract要約: 本稿では,複数の音源を同時に可視化する手法を提案する。
本手法は,Jabriらのランダムウォークにヒントを得た定式化を用いて,両課題を同時に解決する。
我々は、楽器と人間の音声による実験を通して、モデルが複数の音のローカライズに成功することを示す。
- 参考スコア(独自算出の注目度): 10.21507741240426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for simultaneously localizing multiple sound sources
within a visual scene. This task requires a model to both group a sound mixture
into individual sources, and to associate them with a visual signal. Our method
jointly solves both tasks at once, using a formulation inspired by the
contrastive random walk of Jabri et al. We create a graph in which images and
separated sounds correspond to nodes, and train a random walker to transition
between nodes from different modalities with high return probability. The
transition probabilities for this walk are determined by an audio-visual
similarity metric that is learned by our model. We show through experiments
with musical instruments and human speech that our model can successfully
localize multiple sounds, outperforming other self-supervised methods. Project
site: https://hxixixh.github.io/mix-and-localize
- Abstract(参考訳): 本稿では,複数の音源を同時に可視化する手法を提案する。
このタスクは、音の混合を個々のソースにグループ化し、それらを視覚信号に関連付けるモデルを必要とする。
本手法は,Jabriらのランダムウォークにヒントを得た定式化を用いて,両課題を同時に解決する。
我々は、画像と分離された音がノードに対応するグラフを作成し、ランダムウォーカーに異なるモードから高い戻り確率でノード間の遷移を訓練する。
この歩行の遷移確率は、モデルによって学習された視聴覚類似度指標によって決定される。
実験では,複数の音の局所化に成功し,他の自己監視手法よりも優れていることを示す。
プロジェクトサイト: https://hxixixh.github.io/mix-and-localize
関連論文リスト
- wav2pos: Sound Source Localization using Masked Autoencoders [12.306126455995603]
本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
このような定式化は,入力に隠された座標を再構成することにより,音源の正確な位置決めを可能にすることを示す。
論文 参考訳(メタデータ) (2024-08-28T13:09:20Z) - Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation [26.867430697990674]
我々は、頭部を回転させると微妙だが幾何的に一貫した変化を起こす画像と音を使って、カメラの回転と音源の定位を推定する。
視覚モデルは、一対の画像からカメラの回転を予測し、音声モデルは、音源の方向を音から予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
本モデルでは, 実シーンと合成シーンの両方で回転を推定し, 最先端の自己監督手法と競合する精度で音源のローカライズを行う。
論文 参考訳(メタデータ) (2023-03-20T17:59:55Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Sound Localization by Self-Supervised Time Delay Estimation [22.125613860688357]
音の時間遅延を推定するには、各マイクが記録した信号間の対応を見つける必要がある。
我々は、視覚的トラッキングから最新の技術に基づいて、自己スーパービジョンを通してこれらの対応を学習する。
また,視覚誘導型ローカライゼーション課題を解決するマルチモーダルコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2022-04-26T17:59:01Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。