Fugu-MT 論文翻訳(概要): Unsupervised Acoustic Scene Mapping Based on Acoustic Features and Dimensionality Reduction

論文の概要: Unsupervised Acoustic Scene Mapping Based on Acoustic Features and Dimensionality Reduction

arxiv url: http://arxiv.org/abs/2301.00448v1
Date: Sun, 1 Jan 2023 17:46:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 16:22:30.136860
Title: Unsupervised Acoustic Scene Mapping Based on Acoustic Features and Dimensionality Reduction
Title（参考訳）: 音響的特徴と次元的縮小に基づく教師なし音響シーンマッピング
Authors: Idan Cohen, Ofir Lindenbaum and Sharon Gannot
Abstract要約: データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
参考スコア（独自算出の注目度）: 19.818087225770967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Classical methods for acoustic scene mapping require the estimation of time difference of arrival (TDOA) between microphones. Unfortunately, TDOA estimation is very sensitive to reverberation and additive noise. We introduce an unsupervised data-driven approach that exploits the natural structure of the data. Our method builds upon local conformal autoencoders (LOCA) - an offline deep learning scheme for learning standardized data coordinates from measurements. Our experimental setup includes a microphone array that measures the transmitted sound source at multiple locations across the acoustic enclosure. We demonstrate that LOCA learns a representation that is isometric to the spatial locations of the microphones. The performance of our method is evaluated using a series of realistic simulations and compared with other dimensionality-reduction schemes. We further assess the influence of reverberation on the results of LOCA and show that it demonstrates considerable robustness.
Abstract（参考訳）: 音響シーンマッピングの古典的手法は、マイク間の到着時間差(TDOA)を推定する必要がある。残念ながら、TDOA推定は残響や付加音に非常に敏感である。データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。この手法は,測定値から標準データ座標を学習するためのオフラインディープラーニングスキームであるlocal conformal autoencoder (loca) を基盤としている。実験では,透過音源を音響エンクロージャ内の複数箇所で測定するマイクロホンアレイを試作した。 LOCAがマイクロホンの空間的位置と等尺性を持つ表現を学習していることを示す。本手法の性能は, 実測シミュレーションを用いて評価し, 他の次元還元法との比較を行った。さらに, 残響がLOCAの結果に及ぼす影響を評価し, かなりの堅牢性を示した。

関連論文リスト

Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文参考訳（メタデータ） (2025-08-28T15:43:15Z)
LENS-DF: Deepfake Detection and Temporal Localization for Long-Form Noisy Speech [35.36044093564255]
LENS-DFは、オーディオディープフェイクの検出と時間的局在のトレーニングと評価のための、新しく包括的なレシピである。自己教師型学習フロントエンドと単純なバックエンドに基づいて実験を行う。その結果、LENS-DFで生成されたデータを用いてトレーニングしたモデルは、従来のレシピでトレーニングしたモデルよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-22T04:31:13Z)
SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。 SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文参考訳（メタデータ） (2025-04-08T00:22:16Z)
Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.669363620480333]
本稿では,BUDDy と呼ばれる単一チャネルブラインド除去と室内インパルス応答 (RIR) 推定のための教師なし手法を提案する。周波数サブバンド毎に指数減衰したRIRを表すパラメトリックフィルタを設計する。本稿では,RIR推定におけるBUDDyの性能について検討し,不整合音響条件に対する最先端の教師付き推定器を超越して観測する。
論文参考訳（メタデータ） (2024-08-14T11:31:32Z)
Maximum Likelihood Estimation of the Direction of Sound In A Reverberant Noisy Environment [0.8702432681310399]
残響環境における音の方向を音の伝搬の基本原理から推定する新しい手法について述べる。音波分解後の方向成分の時間遅延とエネルギーからSNR適応特性を利用する。
論文参考訳（メタデータ） (2024-06-24T19:42:22Z)
ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文参考訳（メタデータ） (2024-04-24T21:30:01Z)
Sound event localization and classification using WASN in Outdoor Environment [2.234738672139924]
音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-03-29T11:44:14Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Generative adversarial networks with physical sound field priors [6.256923690998173]
本稿では,GANを用いた音場再構築のための深層学習に基づくアプローチを提案する。提案手法は, 平面波ベースと室内圧力の統計的分布を用いて, 限られた数の測定値から音場を再構成する。提案手法は, 音場再構成に有望な手法であることを示す。
論文参考訳（メタデータ） (2023-08-01T10:11:23Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。 3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文参考訳（メタデータ） (2022-06-08T16:38:24Z)
C-SL: Contrastive Sound Localization with Inertial-Acoustic Sensors [5.101801159418222]
任意の幾何形状の移動慣性音響センサアレイを用いたコントラスト音像定位(C-SL)を導入する。 C-SLは、音響測定から、自己教師された方法でアレイ中心の方向へのマッピングを学習する。我々は、C-SLが提供する緩やかな校正プロセスが、真のパーソナライズされた補聴器アプリケーションへの道を開くと信じている。
論文参考訳（メタデータ） (2020-06-09T06:36:44Z)
Unsupervised Domain Adaptation for Acoustic Scene Classification Using Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文参考訳（メタデータ） (2020-04-30T23:56:05Z)
Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文参考訳（メタデータ） (2020-04-06T06:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。