論文の概要: Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and
Audio
- arxiv url: http://arxiv.org/abs/2311.06285v1
- Date: Wed, 1 Nov 2023 16:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-19 14:30:53.025668
- Title: Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and
Audio
- Title(参考訳): 身体ポーズと音声を用いた人体の3次元空間音のモデル化
- Authors: Xudong Xu, Dejan Markovic, Jacob Sandakly, Todd Keebler, Steven Krenn,
Alexander Richard
- Abstract要約: 人体全体に対して正確な3次元空間音声を生成できるモデルを提案する。
システムは入力として、ヘッドセットのマイクからの音声信号とボディポーズを消費する。
本モデルでは, 適切な損失を伴ってトレーニングした場合に, 精度の高い音場を生成できることが示される。
- 参考スコア(独自算出の注目度): 50.39279046238891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While 3D human body modeling has received much attention in computer vision,
modeling the acoustic equivalent, i.e. modeling 3D spatial audio produced by
body motion and speech, has fallen short in the community. To close this gap,
we present a model that can generate accurate 3D spatial audio for full human
bodies. The system consumes, as input, audio signals from headset microphones
and body pose, and produces, as output, a 3D sound field surrounding the
transmitter's body, from which spatial audio can be rendered at any arbitrary
position in the 3D space. We collect a first-of-its-kind multimodal dataset of
human bodies, recorded with multiple cameras and a spherical array of 345
microphones. In an empirical evaluation, we demonstrate that our model can
produce accurate body-induced sound fields when trained with a suitable loss.
Dataset and code are available online.
- Abstract(参考訳): コンピュータビジョンでは3d人体モデリングが注目されているが、身体の動きと音声によって生成された3d空間音声のモデリングといった音響等価なモデリングはコミュニティでは不足している。
このギャップを埋めるために,全人体に対して正確な3次元空間音声を生成するモデルを提案する。
このシステムは、入力として、ヘッドセットマイクからの音声信号とボディポーズを消費し、出力として送信機の体を囲む3D音場を生成し、3D空間内の任意の位置に空間オーディオを描画することができる。
複数のカメラと345マイクロフォンの球状配列で記録した、人体の初歩的なマルチモーダルデータセットを収集した。
経験的評価により,本モデルは適切な損失を訓練した場合に正確な身体誘発音場を生成できることを実証する。
データセットとコードはオンラインで入手できる。
関連論文リスト
- Modeling and Driving Human Body Soundfields through Acoustic Primitives [79.38642644610592]
本研究では,人体が生成する全3次元音場をレンダリングし,高品質な空間オーディオ生成を実現するフレームワークを提案する。
我々は,3次元空間の任意の点において,全音響シーンを効率よく,正確にレンダリングできることを実証した。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
論文 参考訳(メタデータ) (2024-07-18T01:05:13Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio [44.460995595847606]
単一視点画像を用いて3次元人間の耳を再構成し,パーソナライズされた空間音声を実現することを提案する。
視覚と音響のギャップを埋めるために,再建された耳メッシュと市販の3D人体を一体化するためのパイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-30T02:15:50Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。