論文の概要: Points2Sound: From mono to binaural audio using 3D point cloud scenes
- arxiv url: http://arxiv.org/abs/2104.12462v3
- Date: Fri, 19 May 2023 12:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 20:21:21.512317
- Title: Points2Sound: From mono to binaural audio using 3D point cloud scenes
- Title(参考訳): ポイント2Sound:3Dポイントクラウドシーンを用いたモノからバイノーラルオーディオへ
- Authors: Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann
- Abstract要約: 我々は3Dポイントクラウドシーンを用いたモノラルオーディオからバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
その結果,3次元視覚情報により,合成作業のための多モード深層学習モデルを導出できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For immersive applications, the generation of binaural sound that matches its
visual counterpart is crucial to bring meaningful experiences to people in a
virtual environment. Recent studies have shown the possibility of using neural
networks for synthesizing binaural audio from mono audio by using 2D visual
information as guidance. Extending this approach by guiding the audio with 3D
visual information and operating in the waveform domain may allow for a more
accurate auralization of a virtual audio scene. We propose Points2Sound, a
multi-modal deep learning model which generates a binaural version from mono
audio using 3D point cloud scenes. Specifically, Points2Sound consists of a
vision network and an audio network. The vision network uses 3D sparse
convolutions to extract a visual feature from the point cloud scene. Then, the
visual feature conditions the audio network, which operates in the waveform
domain, to synthesize the binaural version. Results show that 3D visual
information can successfully guide multi-modal deep learning models for the
task of binaural synthesis. We also investigate how 3D point cloud attributes,
learning objectives, different reverberant conditions, and several types of
mono mixture signals affect the binaural audio synthesis performance of
Points2Sound for the different numbers of sound sources present in the scene.
- Abstract(参考訳): 没入的アプリケーションでは、仮想環境の人々に有意義な体験をもたらすためには、その視覚と一致するバイノーラル音の生成が不可欠である。
近年の研究では、2次元視覚情報を用いてモノオーディオからバイノーラルオーディオを合成するためにニューラルネットワークを用いる可能性が示されている。
音声を3次元視覚情報で誘導し、波形領域で操作することでこのアプローチを拡張することで、仮想オーディオシーンをより正確にオーラル化することができる。
3Dポイントクラウドシーンを用いたモノオーディオからバイノーラル版を生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
具体的には、points2soundはビジョンネットワークとオーディオネットワークで構成される。
vision networkは3dスパース畳み込みを使用して、point cloudシーンから視覚的な特徴を抽出する。
次に、波形領域で動作するオーディオネットワークを視覚特徴量条件とし、バイノーラル版を合成する。
その結果,バイノーラル合成作業において,3次元視覚情報を用いてマルチモーダル深層学習モデルを導出できることが示唆された。
また,3Dポイントクラウド特性,学習目標,残響条件,複数種類のモノ混合信号が,現場に存在する様々な音源に対して,Points2Soundのバイノーラル音声合成性能に与える影響についても検討した。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Music source separation conditioned on 3D point clouds [0.0]
本稿では,音楽演奏記録の3次元点雲に条件付き音源分離を行うマルチモーダル深層学習モデルを提案する。
3次元スパース畳み込みを用いて視覚特徴を抽出し、高密度畳み込みを用いて音声特徴を抽出する。
融合モジュールは抽出した特徴を組み合わせて、最終的に音源分離を行う。
論文 参考訳(メタデータ) (2021-02-03T12:18:35Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。