論文の概要: wav2pos: Sound Source Localization using Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2408.15771v1
- Date: Wed, 28 Aug 2024 13:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:00:49.864218
- Title: wav2pos: Sound Source Localization using Masked Autoencoders
- Title(参考訳): wav2pos: Masked Autoencoders を用いた音源定位
- Authors: Axel Berg, Jens Gulin, Mark O'Connor, Chuteng Zhou, Karl Åström, Magnus Oskarsson,
- Abstract要約: 本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
このような定式化は,入力に隠された座標を再構成することにより,音源の正確な位置決めを可能にすることを示す。
- 参考スコア(独自算出の注目度): 12.306126455995603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel approach to the 3D sound source localization task for distributed ad-hoc microphone arrays by formulating it as a set-to-set regression problem. By training a multi-modal masked autoencoder model that operates on audio recordings and microphone coordinates, we show that such a formulation allows for accurate localization of the sound source, by reconstructing coordinates masked in the input. Our approach is flexible in the sense that a single model can be used with an arbitrary number of microphones, even when a subset of audio recordings and microphone coordinates are missing. We test our method on simulated and real-world recordings of music and speech in indoor environments, and demonstrate competitive performance compared to both classical and other learning based localization methods.
- Abstract(参考訳): 本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
音声記録やマイクロホン座標で動作するマルチモーダルマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスを用いたオートエンコーダモデルの訓練により,このような定式化により,入力にマスマスマスマスマスマスマスマスマスマスマスマスマスマスを再構成することで,音源の正確な位置推定が可能となることを示す。
我々のアプローチは、オーディオ録音やマイクロホン座標のサブセットが欠落している場合でも、任意の数のマイクロフォンで単一のモデルを使用できるという意味で柔軟である。
室内環境における音楽と音声のシミュレートおよび実世界の録音について実験を行い,古典的および他の学習に基づくローカライズ手法と比較して,競争性能を実証した。
関連論文リスト
- Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Mix and Localize: Localizing Sound Sources in Mixtures [10.21507741240426]
本稿では,複数の音源を同時に可視化する手法を提案する。
本手法は,Jabriらのランダムウォークにヒントを得た定式化を用いて,両課題を同時に解決する。
我々は、楽器と人間の音声による実験を通して、モデルが複数の音のローカライズに成功することを示す。
論文 参考訳(メタデータ) (2022-11-28T04:30:50Z) - Disentangling speech from surroundings with neural embeddings [17.958451380305892]
ニューラルオーディオの埋め込み空間における雑音の多い環境から音声信号を分離する手法を提案する。
本稿では,ベクトルを埋め込んだ音声波形の構造化符号化を実現するための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T13:58:33Z) - CAESynth: Real-Time Timbre Interpolation and Pitch Control with
Conditional Autoencoders [3.0991538386316666]
CAE Synthは、共用潜在特徴空間における参照音を補間することにより、音色をリアルタイムで合成する。
音節分類における精度に基づく条件付きオートエンコーダのトレーニングとピッチコンテンツの逆正則化により、潜時空間における音節分布をより効果的にすることができることを示す。
論文 参考訳(メタデータ) (2021-11-09T14:36:31Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。