論文の概要: Joint Direction and Proximity Classification of Overlapping Sound Events
from Binaural Audio
- arxiv url: http://arxiv.org/abs/2107.12033v1
- Date: Mon, 26 Jul 2021 08:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:44:25.872832
- Title: Joint Direction and Proximity Classification of Overlapping Sound Events
from Binaural Audio
- Title(参考訳): バイノーラルオーディオからの重畳音事象の連成方向と近接度分類
- Authors: Daniel Aleksander Krause, Archontis Politis, Annamaria Mesaros
- Abstract要約: 本研究の目的は,録音からの関節近接と方向推定のいくつかの方法を検討することである。
音声の限界を考慮し,一組の指向性クラスを得るために,球面を角領域に分割する2つの手法を提案する。
出現源のオンセットとオフセットに関する時間情報を提供する共同タスクに近接および方向推定問題を結合する様々な方法を提案する。
- 参考スコア(独自算出の注目度): 7.050270263489538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound source proximity and distance estimation are of great interest in many
practical applications, since they provide significant information for acoustic
scene analysis. As both tasks share complementary qualities, ensuring efficient
interaction between these two is crucial for a complete picture of an aural
environment. In this paper, we aim to investigate several ways of performing
joint proximity and direction estimation from binaural recordings, both defined
as coarse classification problems based on Deep Neural Networks (DNNs).
Considering the limitations of binaural audio, we propose two methods of
splitting the sphere into angular areas in order to obtain a set of directional
classes. For each method we study different model types to acquire information
about the direction-of-arrival (DoA). Finally, we propose various ways of
combining the proximity and direction estimation problems into a joint task
providing temporal information about the onsets and offsets of the appearing
sources. Experiments are performed for a synthetic reverberant binaural dataset
consisting of up to two overlapping sound events.
- Abstract(参考訳): 音源近接と距離推定は音響シーン解析に重要な情報を提供するため,多くの実用化に非常に関心がある。
両タスクが相補的な品質を共有するため、両タスク間の効率的なインタラクションを保証することは、聴覚環境の全体像にとって不可欠である。
本稿では,Deep Neural Networks (DNN) に基づく粗い分類問題として定義されたバイノーラル録音からの関節近接と方向推定のいくつかの方法を検討することを目的とする。
バイノーラルオーディオの限界を考慮すると,一組の指向性クラスを得るために球面を角領域に分割する2つの方法を提案する。
それぞれの手法で異なるモデルタイプを学習し,その方向(DoA)に関する情報を取得する。
最後に、出現源のオンセットとオフセットに関する時間的情報を提供する共同タスクに近接および方向推定問題を結合する様々な方法を提案する。
2つの重なり合う音イベントからなる合成残響バイノーラルデータセットについて実験を行った。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sound event localization and classification using WASN in Outdoor Environment [2.234738672139924]
音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。
音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T11:44:14Z) - Sound Event Detection and Localization with Distance Estimation [4.139846693958608]
3D SELDは、音事象とその対応方向(DOA)を識別する複合作業である
本研究では,SELDコア内に距離推定を統合する2つの方法について検討する。
以上の結果から,音事象検出やDOA推定における性能劣化を伴わずに3D SELDを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:34:16Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Binaural Signal Representations for Joint Sound Event Detection and
Acoustic Scene Classification [3.300149824239397]
音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める、広く研究されている2つのオーディオタスクである。
音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。
本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。
論文 参考訳(メタデータ) (2022-09-13T11:29:00Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。