論文の概要: Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues
- arxiv url: http://arxiv.org/abs/2409.12415v1
- Date: Thu, 19 Sep 2024 02:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:03:37.742138
- Title: Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues
- Title(参考訳): 方向とタイムスタンプを用いたマルチチャネル・マルチチャネル目標音抽出
- Authors: Dayun Choi, Jung-Woo Choi,
- Abstract要約: 連続した時間的手がかりに基づいてマルチチャンネル音声信号を抽出するM2Mフレームワークを提案する。
異なる室内環境における多様なクラスの音声信号から合成されたマルチチャネル信号に対して,我々のトランスフォーマーベースアーキテクチャがM2M-TSEを実現することを実証した。
- 参考スコア(独自算出の注目度): 4.343110120255531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a multichannel-to-multichannel target sound extraction (M2M-TSE) framework for separating multichannel target signals from a multichannel mixture of sound sources. Target sound extraction (TSE) isolates a specific target signal using user-provided clues, typically focusing on single-channel extraction with class labels or temporal activation maps. However, to preserve and utilize spatial information in multichannel audio signals, it is essential to extract multichannel signals of a target sound source. Moreover, the clue for extraction can also include spatial or temporal cues like direction-of-arrival (DoA) or timestamps of source activation. To address these challenges, we present an M2M framework that extracts a multichannel sound signal based on spatio-temporal clues. We demonstrate that our transformer-based architecture can successively accomplish the M2M-TSE task for multichannel signals synthesized from audio signals of diverse classes in different room environments. Furthermore, we show that the multichannel extraction task introduces sufficient inductive bias in the DNN, allowing it to directly handle DoA clues without utilizing hand-crafted spatial features.
- Abstract(参考訳): マルチチャネル・マルチチャネル・ターゲット音抽出(M2M-TSE)フレームワークを提案する。
ターゲット音抽出(TSE)は、通常、クラスラベルや時間的アクティベーションマップを用いた単一チャネル抽出に焦点を当て、ユーザが提供する手がかりを用いて特定のターゲット信号を分離する。
しかし,マルチチャンネル音声信号の空間情報を保存・活用するためには,対象音源のマルチチャネル信号を抽出することが不可欠である。
さらに、抽出の手がかりには、方向方向(DoA)やソースアクティベーションのタイムスタンプのような空間的または時間的手がかりも含まれる。
これらの課題に対処するため,時空間手がかりに基づいてマルチチャンネル音声信号を抽出するM2Mフレームワークを提案する。
異なる部屋環境における多様なクラスの音声信号から合成されたマルチチャネル信号に対して,我々のトランスフォーマーベースアーキテクチャがM2M-TSEタスクを順次達成できることを実証した。
さらに,マルチチャネル抽出タスクはDNNに十分な帰納バイアスを導入し,手作りの空間的特徴を生かさずに直接DoAの手がかりを扱えることを示す。
関連論文リスト
- Low-Latency Task-Oriented Communications with Multi-Round, Multi-Task Deep Learning [45.622060532244944]
本稿では,マルチラウンド・マルチタスク・ラーニング(MRMTL)によるマルチラウンド・トランスミッションにおけるチャネル利用の動的更新を提案する。
MRMTLはタスク指向通信の効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-15T17:48:06Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Learning Signal Representations for EEG Cross-Subject Channel Selection
and Trial Classification [0.3553493344868413]
脳波記録の主観非依存チャネル選択のためのアルゴリズムを提案する。
チャネル固有の1D-畳み込みニューラルネットワーク(1D-CNN)を教師付き方法で特徴抽出器として利用し、クラス分離性を最大化する。
トレーニング後、選択されたチャネル固有の1D-CNNのパラメータ化されたサブグループのみを新しい被験者からの新たな信号に転送することで、アルゴリズムを活用できる。
論文 参考訳(メタデータ) (2021-06-20T06:22:16Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - Model-Driven Deep Learning Based Channel Estimation and Feedback for
Millimeter-Wave Massive Hybrid MIMO Systems [61.78590389147475]
本稿では,ミリ波(mmWave)システムのモデル駆動深層学習(MDDL)に基づくチャネル推定とフィードバック方式を提案する。
無線周波数(RF)鎖の限られた数から高次元チャネルを推定するためのアップリンクパイロットオーバーヘッドを低減するために,位相シフトネットワークとチャネル推定器を自動エンコーダとして共同で訓練することを提案する。
MDDLに基づくチャネル推定とフィードバック方式は,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-22T13:34:53Z) - Quaternion Neural Networks for Multi-channel Distant Speech Recognition [25.214316268077244]
この問題を緩和するための一般的なアプローチは、複数のマイクで記録装置を装備することである。
四元系ニューラルネットワークを用いて,これらの構造的依存関係と構造的依存関係を捉えることを提案する。
多チャンネル音声信号に基づいて訓練された四元長長長記憶ニューラルネットワーク(QLSTM)は、遠隔音声認識の2つの異なるタスクにおいて、等価実数値LSTMより優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T10:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。