論文の概要: D3Net: Densely connected multidilated DenseNet for music source
separation
- arxiv url: http://arxiv.org/abs/2010.01733v4
- Date: Sat, 27 Mar 2021 04:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 22:34:23.888504
- Title: D3Net: Densely connected multidilated DenseNet for music source
separation
- Title(参考訳): D3Net:音楽ソース分離のための高密度接続型DenseNet
- Authors: Naoya Takahashi and Yuki Mitsufuji
- Abstract要約: 音源分離は、音声信号の長期依存をモデル化するための大きな入力フィールドを含む。
従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、シーケンシャルにダウンサンプリングされた特徴マップや拡張畳み込みを使用した大規模な入力フィールドモデリングに対処する。
密結合拡張DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは6.01dBの平均信号対歪み比(SDR)で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 25.75557472306157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source separation involves a large input field to model a long-term
dependence of an audio signal. Previous convolutional neural network
(CNN)-based approaches address the large input field modeling using
sequentially down- and up-sampling feature maps or dilated convolution. In this
paper, we claim the importance of a rapid growth of a receptive field and a
simultaneous modeling of multi-resolution data in a single convolution layer,
and propose a novel CNN architecture called densely connected dilated DenseNet
(D3Net). D3Net involves a novel multi-dilated convolution that has different
dilation factors in a single layer to model different resolutions
simultaneously. By combining the multi-dilated convolution with DenseNet
architecture, D3Net avoids the aliasing problem that exists when we naively
incorporate the dilated convolution in DenseNet. Experimental results on
MUSDB18 dataset show that D3Net achieves state-of-the-art performance with an
average signal to distortion ratio (SDR) of 6.01 dB.
- Abstract(参考訳): 音源分離は、音声信号の長期依存をモデル化するための大きな入力フィールドを含む。
従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、シーケンシャルにダウンサンプリングされた特徴マップや拡張畳み込みを使用した大規模な入力フィールドモデリングに対処する。
本稿では,単一畳み込み層における受容場の急速な成長とマルチレゾリューションデータの同時モデリングの重要性を主張するとともに,d3netと呼ばれる新しいcnnアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために、単一の層に異なる拡張因子を持つ新しい多次元畳み込みを含んでいる。
DenseNetのマルチディイル化畳み込みとDenseNetアーキテクチャを組み合わせることで、DenseNetに拡張畳み込みを鼻で組み込む際に存在するエイリアス問題を回避することができる。
MUSDB18データセットの実験結果から、D3Netは6.01dBの平均信号から歪み比(SDR)で最先端の性能を達成した。
関連論文リスト
- C3Net: Compound Conditioned ControlNet for Multimodal Content Generation [67.5090755991599]
Compound Conditioned ControlNet, C3Netは、複数のモードから条件を同時に取り出す新しい生成ニューラルアーキテクチャである。
C3Netは、ControlNetアーキテクチャを適用して、プロダクション対応の拡散モデルで共同でトレーニングし、推論する。
論文 参考訳(メタデータ) (2023-11-29T07:11:56Z) - SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training [3.66237529322911]
我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-11-08T16:53:44Z) - DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for
Hyperspectral Remote Sensing Image Classification [22.025733502296035]
改良された3D-Densenetモデルに基づく軽量モデルを導入し,DGCNetを設計する。
複数のグループは、入力画像の異なる視覚的および意味的な特徴をキャプチャし、畳み込みニューラルネットワーク(CNN)がリッチな特徴を学習できるようにする。
推論速度と精度が向上し、IN、Pavia、KSCデータセット上での優れたパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-07-13T10:19:48Z) - Improved distinct bone segmentation in upper-body CT through
multi-resolution networks [0.39583175274885335]
上半身CTと異なる骨分画では、大きな視野と計算的な3Dアーキテクチャが必要とされる。
これにより、空間的コンテキストの欠如により、細部や局所的な誤差を欠いた低解像度な結果が得られる。
本稿では,異なる解像度で動作する複数の3次元U-Netを組み合わせたエンドツーエンドのトレーニング可能なセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T14:46:16Z) - EurNet: Efficient Multi-Range Relational Modeling of Spatial
Multi-Relational Data [65.56348668962343]
マルチレンジ・リレーショナル・モデリングのためのEurNetを提案する。
EurNetは、各タイプのエッジが短距離、中距離、長距離の空間的相互作用に対応するマルチリレーショナルグラフを構築する。
画像およびタンパク質構造モデリングにおいて,EurNetsを2つの重要な領域で研究する。
論文 参考訳(メタデータ) (2022-11-23T13:24:36Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Densely connected multidilated convolutional networks for dense
prediction tasks [25.75557472306157]
密結合多重化DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために単一の層に異なる拡張因子を持つ新しい多重化畳み込みを含む。
Cityscapes を用いた画像セマンティックセグメンテーションタスクと MUSDB18 を用いた音源分離タスクの実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-11-21T05:15:12Z) - VolumeNet: A Lightweight Parallel Network for Super-Resolution of
Medical Volumetric Data [20.34783243852236]
並列接続を用いたParallelNetと呼ばれる医療ボリュームデータのSRのための3次元畳み込みニューラルネットワーク(CNN)を提案する。
本稿では,提案手法によりモデルパラメータの数を著しく削減し,高精度な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:53:15Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。