論文の概要: Sound Localization by Self-Supervised Time Delay Estimation
- arxiv url: http://arxiv.org/abs/2204.12489v1
- Date: Tue, 26 Apr 2022 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 15:15:10.439064
- Title: Sound Localization by Self-Supervised Time Delay Estimation
- Title(参考訳): 自己監督時間遅延推定による音像定位
- Authors: Ziyang Chen, David F. Fouhey and Andrew Owens
- Abstract要約: 音の時間遅延を推定するには、各マイクが記録した信号間の対応を見つける必要がある。
我々は、視覚的トラッキングから最新の技術に基づいて、自己スーパービジョンを通してこれらの対応を学習する。
また,視覚誘導型ローカライゼーション課題を解決するマルチモーダルコントラスト学習モデルを提案する。
- 参考スコア(独自算出の注目度): 22.125613860688357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sounds reach one microphone in a stereo pair sooner than the other, resulting
in an interaural time delay that conveys their directions. Estimating a sound's
time delay requires finding correspondences between the signals recorded by
each microphone. We propose to learn these correspondences through
self-supervision, drawing on recent techniques from visual tracking. We adapt
the contrastive random walk of Jabri et al. to learn a cycle-consistent
representation from unlabeled stereo sounds, resulting in a model that performs
on par with supervised methods on "in the wild" internet recordings. We also
propose a multimodal contrastive learning model that solves a visually-guided
localization task: estimating the time delay for a particular person in a
multi-speaker mixture, given a visual representation of their face. Project
site: https://ificl.github.io/stereocrw/
- Abstract(参考訳): 音はステレオペアよりも早く1つのマイクに届き、その方向を伝達する耳間時間遅延が生じる。
音の時間遅延を推定するには、各マイクが記録した信号間の対応を見つける必要がある。
我々は,これらの対応を自己スーパービジョンで学習し,視覚追跡の最近の技術について考察する。
我々は、Jabriらによる対照的なランダムウォークに適応し、未ラベルステレオ音から周期整合表現を学習し、結果として「野生」インターネット記録における教師付き手法と同等に動作するモデルを構築した。
また,顔の視覚的表現を与えられた複数話者混合において,特定の人物の時間遅延を推定する,視覚誘導型局所化課題を解決するマルチモーダルコントラスト学習モデルを提案する。
プロジェクトサイト: https://ificl.github.io/stereocrw/
関連論文リスト
- Tempo estimation as fully self-supervised binary classification [6.255143207183722]
ラベル付きデータに依存しない完全自己教師型アプローチを提案する。
提案手法は,テンポに関する情報を含む様々な特性を,すでに汎用的な(音楽的な)オーディオ埋め込みがエンコードしているという事実に基づいている。
論文 参考訳(メタデータ) (2024-01-17T00:15:16Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation [26.867430697990674]
我々は、頭部を回転させると微妙だが幾何的に一貫した変化を起こす画像と音を使って、カメラの回転と音源の定位を推定する。
視覚モデルは、一対の画像からカメラの回転を予測し、音声モデルは、音源の方向を音から予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
本モデルでは, 実シーンと合成シーンの両方で回転を推定し, 最先端の自己監督手法と競合する精度で音源のローカライズを行う。
論文 参考訳(メタデータ) (2023-03-20T17:59:55Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Mix and Localize: Localizing Sound Sources in Mixtures [10.21507741240426]
本稿では,複数の音源を同時に可視化する手法を提案する。
本手法は,Jabriらのランダムウォークにヒントを得た定式化を用いて,両課題を同時に解決する。
我々は、楽器と人間の音声による実験を通して、モデルが複数の音のローカライズに成功することを示す。
論文 参考訳(メタデータ) (2022-11-28T04:30:50Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。