論文の概要: Echo-Reconstruction: Audio-Augmented 3D Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2110.02405v1
- Date: Tue, 5 Oct 2021 23:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:11:04.082827
- Title: Echo-Reconstruction: Audio-Augmented 3D Scene Reconstruction
- Title(参考訳): echo-reconstruction:音声による3次元シーンの再構成
- Authors: Justin Wilson and Nicholas Rewkowski and Ming C. Lin and Henry Fuchs
- Abstract要約: 窓、鏡、壁などの反射面とテクスチャのない面は、オブジェクトやシーンの再構築に難題である。
仮想会議,遠隔操作,その他のAR/VR体験のための幾何学的・音響的再構成を支援するために,音の反射を利用した音声-視覚的手法であるEchoreconstructionを提案する。
- 参考スコア(独自算出の注目度): 30.951713301164016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reflective and textureless surfaces such as windows, mirrors, and walls can
be a challenge for object and scene reconstruction. These surfaces are often
poorly reconstructed and filled with depth discontinuities and holes, making it
difficult to cohesively reconstruct scenes that contain these planar
discontinuities. We propose Echoreconstruction, an audio-visual method that
uses the reflections of sound to aid in geometry and audio reconstruction for
virtual conferencing, teleimmersion, and other AR/VR experience. The mobile
phone prototype emits pulsed audio, while recording video for RGB-based 3D
reconstruction and audio-visual classification. Reflected sound and images from
the video are input into our audio (EchoCNN-A) and audio-visual (EchoCNN-AV)
convolutional neural networks for surface and sound source detection, depth
estimation, and material classification. The inferences from these
classifications enhance scene 3D reconstructions containing open spaces and
reflective surfaces by depth filtering, inpainting, and placement of unmixed
sound sources in the scene. Our prototype, VR demo, and experimental results
from real-world and virtual scenes with challenging surfaces and sound indicate
high success rates on classification of material, depth estimation, and
closed/open surfaces, leading to considerable visual and audio improvement in
3D scenes (see Figure 1).
- Abstract(参考訳): 窓、鏡、壁などの反射面とテクスチャのない面は、オブジェクトやシーンの再構築に難題である。
これらの表面は、しばしば再構成が不十分で、深さの不連続性や穴で満たされており、これらの平面不連続性を含むシーンを密に再構築することは困難である。
本研究では,音の反射を利用して,仮想会議,テレマージョン,その他のar/vr体験の幾何および音響再構成を支援する音響ビジュアル手法であるechoreconstructionを提案する。
携帯電話のプロトタイプはパルスオーディオを出力し、RGBベースの3D再構成とオーディオ視覚分類のためのビデオを記録する。
映像からの反射音と映像を音声(EchoCNN-A)と音声視覚(EchoCNN-AV)の畳み込みニューラルネットワークに入力し,音源検出,深度推定,材料分類を行う。
これらの分類からの推測は、奥行きフィルタリング、塗装、未混合音源の配置により、開放空間と反射面を含むシーン3次元再構成を促進する。
プロトタイプ,vrデモ,実世界および実世界および音環境における実験結果から,材料分類,奥行き推定,閉・開放面において高い成功率を示し,3dシーンにおける映像と音声の大幅な改善をもたらした(図1参照)。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos [32.48058491211032]
本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。
我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:07:46Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - NeRS: Neural Reflectance Surfaces for Sparse-view 3D Reconstruction in
the Wild [80.09093712055682]
ニューラルリフレクタンスサーフェス(NeRS)と呼ばれる暗黙モデルの表面アナログを導入する。
NeRSは、球に微分される閉じた表面の神経形状の表現を学び、水密な再構成を保証する。
このようなデータから学習可能な表面ベースニューラル再構成は,体積的ニューラルレンダリングに基づく再構成よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-14T17:59:58Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。