論文の概要: Music source separation conditioned on 3D point clouds
- arxiv url: http://arxiv.org/abs/2102.02028v1
- Date: Wed, 3 Feb 2021 12:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:04:54.843458
- Title: Music source separation conditioned on 3D point clouds
- Title(参考訳): 3次元点雲上の音楽音源分離条件
- Authors: Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann
- Abstract要約: 本稿では,音楽演奏記録の3次元点雲に条件付き音源分離を行うマルチモーダル深層学習モデルを提案する。
3次元スパース畳み込みを用いて視覚特徴を抽出し、高密度畳み込みを用いて音声特徴を抽出する。
融合モジュールは抽出した特徴を組み合わせて、最終的に音源分離を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, significant progress has been made in audio source separation by
the application of deep learning techniques. Current methods that combine both
audio and visual information use 2D representations such as images to guide the
separation process. However, in order to (re)-create acoustically correct
scenes for 3D virtual/augmented reality applications from recordings of real
music ensembles, detailed information about each sound source in the 3D
environment is required. This demand, together with the proliferation of 3D
visual acquisition systems like LiDAR or rgb-depth cameras, stimulates the
creation of models that can guide the audio separation using 3D visual
information. This paper proposes a multi-modal deep learning model to perform
music source separation conditioned on 3D point clouds of music performance
recordings. This model extracts visual features using 3D sparse convolutions,
while audio features are extracted using dense convolutions. A fusion module
combines the extracted features to finally perform the audio source separation.
It is shown, that the presented model can distinguish the musical instruments
from a single 3D point cloud frame, and perform source separation qualitatively
similar to a reference case, where manually assigned instrument labels are
provided.
- Abstract(参考訳): 近年,深層学習技術の適用により音源分離が著しく進展している。
音声と視覚情報を組み合わせる現在の手法では、画像などの2次元表現を使用して分離プロセスを導く。
ただし、実際の音楽アンサンブルの録音から3D仮想/拡張現実アプリケーションのための音響的補正シーンを(再)作成するには、3D環境内の各音源に関する詳細な情報が必要です。
この需要は、lidarやrgb-depthカメラのような3d視覚取得システムの急増とともに、3d視覚情報を使用してオーディオ分離を導くモデルの作成を促進する。
本稿では,音楽演奏記録の3次元点雲に条件付き音源分離を行うマルチモーダル深層学習モデルを提案する。
このモデルは3次元スパース畳み込みを用いて視覚的特徴を抽出し、音声特徴は密畳み込みを用いて抽出する。
融合モジュールは抽出した特徴を組み合わせて、最終的に音源分離を行う。
提示されたモデルは、単一の3Dポイントクラウドフレームから楽器を区別し、手動で割り当てられた楽器ラベルが提供される基準ケースと定性的に類似したソース分離を行うことができる。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - Memory-based Adapters for Online 3D Scene Perception [71.71645534899905]
従来の3Dシーン認識手法はオフラインである。
本稿では,3次元シーン認識モデルのバックボーンのためのアダプタベースのプラグアンドプレイモジュールを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入でき、オンラインタスクのパフォーマンスを大幅に向上できます。
論文 参考訳(メタデータ) (2024-03-11T17:57:41Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - Points2Sound: From mono to binaural audio using 3D point cloud scenes [0.0]
我々は3Dポイントクラウドシーンを用いたモノラルオーディオからバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
その結果,3次元視覚情報により,合成作業のための多モード深層学習モデルを導出できることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T10:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。