論文の概要: Modeling and Driving Human Body Soundfields through Acoustic Primitives
- arxiv url: http://arxiv.org/abs/2407.13083v1
- Date: Thu, 18 Jul 2024 01:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:13:43.357959
- Title: Modeling and Driving Human Body Soundfields through Acoustic Primitives
- Title(参考訳): 音響プリミティブによる人体音場のモデル化と駆動
- Authors: Chao Huan, Dejan Markovic, Chenliang Xu, Alexander Richard,
- Abstract要約: 本研究では,人体が生成する全3次元音場をレンダリングし,高品質な空間オーディオ生成を実現するフレームワークを提案する。
我々は,3次元空間の任意の点において,全音響シーンを効率よく,正確にレンダリングできることを実証した。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
- 参考スコア(独自算出の注目度): 76.10983251984366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While rendering and animation of photorealistic 3D human body models have matured and reached an impressive quality over the past years, modeling the spatial audio associated with such full body models has been largely ignored so far. In this work, we present a framework that allows for high-quality spatial audio generation, capable of rendering the full 3D soundfield generated by a human body, including speech, footsteps, hand-body interactions, and others. Given a basic audio-visual representation of the body in form of 3D body pose and audio from a head-mounted microphone, we demonstrate that we can render the full acoustic scene at any point in 3D space efficiently and accurately. To enable near-field and realtime rendering of sound, we borrow the idea of volumetric primitives from graphical neural rendering and transfer them into the acoustic domain. Our acoustic primitives result in an order of magnitude smaller soundfield representations and overcome deficiencies in near-field rendering compared to previous approaches.
- Abstract(参考訳): フォトリアリスティックな3D人体モデルのレンダリングとアニメーションは、過去数年間で完成し、印象的な品質に達したが、そのようなフルボディモデルに関連する空間オーディオのモデリングは、これまでほとんど無視されてきた。
本研究では,音声,フットステップ,手動インタラクションなど,人体が生成する全3次元音場をレンダリングすることのできる,高品質な空間オーディオ生成を実現するフレームワークを提案する。
頭部に装着したマイクロホンの3次元ボディポーズとオーディオによる身体の基本的な音響・視覚的表現を考慮し、全音響シーンを3次元空間の任意の地点で効率よく正確にレンダリングできることを実証する。
音の近距離場およびリアルタイムレンダリングを可能にするため,グラフィカル・ニューラル・レンダリングからボリューム・プリミティブのアイデアを借りて音響領域に転送する。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and
Audio [50.39279046238891]
人体全体に対して正確な3次元空間音声を生成できるモデルを提案する。
システムは入力として、ヘッドセットのマイクからの音声信号とボディポーズを消費する。
本モデルでは, 適切な損失を伴ってトレーニングした場合に, 精度の高い音場を生成できることが示される。
論文 参考訳(メタデータ) (2023-11-01T16:40:35Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio [44.460995595847606]
単一視点画像を用いて3次元人間の耳を再構成し,パーソナライズされた空間音声を実現することを提案する。
視覚と音響のギャップを埋めるために,再建された耳メッシュと市販の3D人体を一体化するためのパイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-30T02:15:50Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。