論文の概要: ReZero: Region-customizable Sound Extraction
- arxiv url: http://arxiv.org/abs/2308.16892v1
- Date: Thu, 31 Aug 2023 17:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:34:49.381049
- Title: ReZero: Region-customizable Sound Extraction
- Title(参考訳): ReZero: 地域音の除去
- Authors: Rongzhi Gu, Yi Luo
- Abstract要約: 地域音の抽出(ReZero)
R-SEタスクは、特定のユーザ定義空間領域内でアクティブなターゲット音を抽出することを目的としている。
提案するReZeroフレームワークは,(1)異なる空間領域の定義,(2)地域特徴抽出と集約のための方法,(3)R-SEタスクで指定された帯域分割RNN(BSRNN)モデルのマルチチャネル拡張を含む。
- 参考スコア(独自算出の注目度): 19.38178446860523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce region-customizable sound extraction (ReZero), a general and
flexible framework for the multi-channel region-wise sound extraction (R-SE)
task. R-SE task aims at extracting all active target sounds (e.g., human
speech) within a specific, user-defined spatial region, which is different from
conventional and existing tasks where a blind separation or a fixed, predefined
spatial region are typically assumed. The spatial region can be defined as an
angular window, a sphere, a cone, or other geometric patterns. Being a solution
to the R-SE task, the proposed ReZero framework includes (1) definitions of
different types of spatial regions, (2) methods for region feature extraction
and aggregation, and (3) a multi-channel extension of the band-split RNN
(BSRNN) model specified for the R-SE task. We design experiments for different
microphone array geometries, different types of spatial regions, and
comprehensive ablation studies on different system configurations. Experimental
results on both simulated and real-recorded data demonstrate the effectiveness
of ReZero. Demos are available at https://innerselfm.github.io/rezero/.
- Abstract(参考訳): 本稿では,マルチチャネル領域ワイド音声抽出(R-SE)タスクのための汎用かつ柔軟なフレームワークReZeroを紹介する。
R-SEタスクは、視覚的分離や固定された空間的領域が典型的に想定される従来のタスクとは異なる、特定のユーザ定義空間領域内で、アクティブなターゲット音(例えば、ヒューマンスピーチ)を抽出することを目的としている。
空間領域は、角窓、球面、円錐、その他の幾何学的パターンとして定義することができる。
R-SEタスクの解法として、(1)異なる空間領域の定義、(2)特徴抽出と集約のための方法、(3)R-SEタスクで指定された帯域分割RNN(BSRNN)モデルのマルチチャネル拡張を含むReZeroフレームワークを提案する。
我々は,様々なマイクロホンアレイ測地,異なるタイプの空間領域,および異なるシステム構成に関する包括的アブレーション実験を設計した。
シミュレーションデータと実記録データの両方の実験結果から,ReZeroの有効性が示された。
デモはhttps://innerselfm.github.io/rezero/で見ることができる。
関連論文リスト
- Learning conditional distributions on continuous spaces [0.0]
多次元単位箱上の条件分布のサンプルベース学習について検討する。
我々は2つの異なるクラスタリングスキームを用いる: 1つは固定ラディウス球に基づいており、もう1つは近接する近傍にある。
我々は,ニューラルネットワークのトレーニングに近接する手法を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-06-13T17:53:47Z) - Region-Enhanced Feature Learning for Scene Semantic Segmentation [19.20735517821943]
計算負担を軽減するために,細粒度点やボクセルの代わりに点雲の中間表現として領域を用いることを提案する。
本研究では,セマンティック空間領域抽出段階と領域依存モデリング段階からなるRFEモジュールを設計する。
我々のREFL-NetはScanNetV2で1.8% mIoUゲイン、S3DISデータセットで1.7% mIoUゲインを無視可能な計算コストで達成している。
論文 参考訳(メタデータ) (2023-04-15T06:35:06Z) - Bidirectional Domain Mixup for Domain Adaptive Semantic Segmentation [73.3083304858763]
本稿では,ドメイン適応型セマンティックセグメンテーションタスクにおけるミックスアップの影響を系統的に研究する。
具体的には、ドメインミックスアップをカットとペーストという2ステップで実現します。
フレームワークの主なコンポーネントを実証的に検証するために、広範囲にわたるアブレーション実験を行います。
論文 参考訳(メタデータ) (2023-03-17T05:22:44Z) - Multi-Microphone Speaker Separation by Spatial Regions [9.156939957189504]
残響マルチマイクロホンの音源分離の課題について考察する。
我々は、最先端ネットワークの修正版を用いたデータ駆動型アプローチを提案する。
両トレーニング手法は,各領域をネットワーク出力に固定したマッピングを行い,同等の性能を実現し,ネットワークが空間情報を利用することを示す。
論文 参考訳(メタデータ) (2023-03-13T14:11:34Z) - Refine and Represent: Region-to-Object Representation Learning [55.70715883351945]
本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
論文 参考訳(メタデータ) (2022-08-25T01:44:28Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Semantic Segmentation by Early Region Proxy [53.594035639400616]
本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-03-26T10:48:32Z) - Change Detection in Synthetic Aperture Radar Images Using a Dual-Domain
Network [33.50775914682585]
合成開口レーダ(SAR)画像からの変化検出は、重要かつ困難な作業です。
既存の手法は主に空間領域の特徴抽出に焦点を当てており、周波数領域にはほとんど注意が払われていない。
上記の2つの課題に取り組むためのデュアルドメインネットワークを提案します。
論文 参考訳(メタデータ) (2021-04-14T08:41:48Z) - LRC-Net: Learning Discriminative Features on Point Clouds by Encoding
Local Region Contexts [65.79931333193016]
本稿では,LRC-Net(Local-Region-Context Network)を提案する。
LRC-Netは、局所領域内および周辺領域間の微粒なコンテキストを同時に符号化する。
その結果, LRC-Netは形状分類や形状分割の応用において最先端の手法と競合することがわかった。
論文 参考訳(メタデータ) (2020-03-18T14:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。