論文の概要: AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio
- arxiv url: http://arxiv.org/abs/2301.12613v1
- Date: Mon, 30 Jan 2023 02:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:03:56.469826
- Title: AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio
- Title(参考訳): AudioEar:パーソナライズされた空間オーディオのための単一視点耳再構成
- Authors: Xiaoyang Huang, Yanjun Wang, Yang Liu, Bingbing Ni, Wenjun Zhang,
Jinxian Liu, Teng Li
- Abstract要約: 単一視点画像を用いて3次元人間の耳を再構成し,パーソナライズされた空間音声を実現することを提案する。
視覚と音響のギャップを埋めるために,再建された耳メッシュと市販の3D人体を一体化するためのパイプラインを開発した。
- 参考スコア(独自算出の注目度): 44.460995595847606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial audio, which focuses on immersive 3D sound rendering, is widely
applied in the acoustic industry. One of the key problems of current spatial
audio rendering methods is the lack of personalization based on different
anatomies of individuals, which is essential to produce accurate sound source
positions. In this work, we address this problem from an interdisciplinary
perspective. The rendering of spatial audio is strongly correlated with the 3D
shape of human bodies, particularly ears. To this end, we propose to achieve
personalized spatial audio by reconstructing 3D human ears with single-view
images. First, to benchmark the ear reconstruction task, we introduce
AudioEar3D, a high-quality 3D ear dataset consisting of 112 point cloud ear
scans with RGB images. To self-supervisedly train a reconstruction model, we
further collect a 2D ear dataset composed of 2,000 images, each one with manual
annotation of occlusion and 55 landmarks, named AudioEar2D. To our knowledge,
both datasets have the largest scale and best quality of their kinds for public
use. Further, we propose AudioEarM, a reconstruction method guided by a depth
estimation network that is trained on synthetic data, with two loss functions
tailored for ear data. Lastly, to fill the gap between the vision and acoustics
community, we develop a pipeline to integrate the reconstructed ear mesh with
an off-the-shelf 3D human body and simulate a personalized Head-Related
Transfer Function (HRTF), which is the core of spatial audio rendering. Code
and data are publicly available at https://github.com/seanywang0408/AudioEar.
- Abstract(参考訳): 没入型3D音響レンダリングに焦点を当てた空間オーディオは、音響産業に広く応用されている。
現在の空間音響レンダリング手法の大きな問題の1つは、正確な音源位置を生成するのに不可欠である個人の異なる解剖に基づくパーソナライゼーションの欠如である。
本研究では,学際的な観点からこの問題に対処する。
空間音響の描画は、人体の3次元形状、特に耳と強く相関している。
そこで本研究では,人間の耳を1視点画像で再構成し,パーソナライズした空間オーディオを実現することを提案する。
まず,112点の雲耳スキャンとRGB画像からなる高品質な3D耳データセットであるAudioEar3Dを紹介する。
自己教師ありに復元モデルを訓練するため,我々はさらにaudioear2dという,手作業による咬合注記と55点のランドマークを持つ2,000の画像からなる2次元耳データセットを収集した。
我々の知る限り、両者のデータセットは、公共用途において最大のスケールと最高の品質を持っている。
さらに,耳データに適した2つの損失関数を持つ合成データに基づいて,深度推定ネットワークによって誘導される再構成手法であるAudioEarMを提案する。
最後に、視覚と音響のギャップを埋めるために、再構成された耳メッシュを市販の3D人体と統合し、空間オーディオレンダリングのコアとなるパーソナライズされた頭部関連伝達関数(HRTF)をシミュレートするパイプラインを開発する。
コードとデータはhttps://github.com/seanywang0408/audioearで公開されている。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - Modeling and Driving Human Body Soundfields through Acoustic Primitives [79.38642644610592]
本研究では,人体が生成する全3次元音場をレンダリングし,高品質な空間オーディオ生成を実現するフレームワークを提案する。
我々は,3次元空間の任意の点において,全音響シーンを効率よく,正確にレンダリングできることを実証した。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
論文 参考訳(メタデータ) (2024-07-18T01:05:13Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and
Audio [50.39279046238891]
人体全体に対して正確な3次元空間音声を生成できるモデルを提案する。
システムは入力として、ヘッドセットのマイクからの音声信号とボディポーズを消費する。
本モデルでは, 適切な損失を伴ってトレーニングした場合に, 精度の高い音場を生成できることが示される。
論文 参考訳(メタデータ) (2023-11-01T16:40:35Z) - Novel-View Acoustic Synthesis from 3D Reconstructed Rooms [17.72902700567848]
そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
論文 参考訳(メタデータ) (2023-10-23T17:34:31Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Learning to Separate Voices by Spatial Regions [5.483801693991577]
イヤホンや補聴器などの応用における音声分離の問題点を考察する。
比較的クリーンなパーソナライズされた信号を抽出するために、イヤホンからの過剰な音声を前処理する2段階の自己教師型フレームワークを提案する。
結果は、一般的な教師付きアプローチよりもパーソナライズの重要性を強調し、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-07-09T06:25:01Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - A Human Ear Reconstruction Autoencoder [19.72707659069644]
本研究の目的は、より微妙で難解な曲線と特徴が2次元の耳入力画像に現れる3次元耳再構成作業に取り組むことである。
我々のHuman Ear Reconstruction Autoencoder(HERA)システムは、これらのパラメータを監督することなく、3次元耳メッシュの3次元耳ポーズと形状パラメータを予測する。
構築したエンド・ツー・エンドの自己監督モデルについて,2次元ランドマークの定位性能と再構成された3次元耳の外観の両方で評価する。
論文 参考訳(メタデータ) (2020-10-07T12:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。