論文の概要: SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera
- arxiv url: http://arxiv.org/abs/2412.16861v1
- Date: Sun, 22 Dec 2024 05:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:58.069490
- Title: SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera
- Title(参考訳): SoundLoc3D:マルチモーダルRGB-D音響カメラを用いた可視3次元音源定位と分類
- Authors: Yuhang He, Sangyun Shin, Anoop Cherian, Andrew Markham,
- Abstract要約: SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
- 参考スコア(独自算出の注目度): 51.09198637453032
- License:
- Abstract: Accurately localizing 3D sound sources and estimating their semantic labels -- where the sources may not be visible, but are assumed to lie on the physical surface of objects in the scene -- have many real applications, including detecting gas leak and machinery malfunction. The audio-visual weak-correlation in such setting poses new challenges in deriving innovative methods to answer if or how we can use cross-modal information to solve the task. Towards this end, we propose to use an acoustic-camera rig consisting of a pinhole RGB-D camera and a coplanar four-channel microphone array~(Mic-Array). By using this rig to record audio-visual signals from multiviews, we can use the cross-modal cues to estimate the sound sources 3D locations. Specifically, our framework SoundLoc3D treats the task as a set prediction problem, each element in the set corresponds to a potential sound source. Given the audio-visual weak-correlation, the set representation is initially learned from a single view microphone array signal, and then refined by actively incorporating physical surface cues revealed from multiview RGB-D images. We demonstrate the efficiency and superiority of SoundLoc3D on large-scale simulated dataset, and further show its robustness to RGB-D measurement inaccuracy and ambient noise interference.
- Abstract(参考訳): 3Dサウンドソースの正確な位置決めと、それらのセマンティックラベル(ソースが見えないかもしれないが、現場の物体の物理的表面にあると仮定される)の推定には、ガス漏れの検出や機械の故障など、多くの応用がある。
このような環境下での音声と視覚の弱相関は、タスクの解決にクロスモーダル情報を使用することができるかどうか、あるいはどのようにして答えられるかという、革新的な方法の導出において、新たな課題を生じさせる。
そこで本研究では,ピンホールRGB-Dカメラとコプラナー4チャネルマイクロホンアレイ—(Mic-Array)からなる音響カメラリグを提案する。
このリグを用いてマルチビューからの音声・視覚信号を記録することで,音源の3D位置を推定する。
具体的には,本フレームワークのSoundLoc3Dは,タスクをセット予測問題として扱い,セットの各要素が潜在的な音源に対応する。
音声と視覚の相関が弱いと、セット表現は最初は単一ビューのマイクロフォンアレイ信号から学習され、その後、マルチビューのRGB-D画像から明らかになった物理的表面の手がかりを積極的に取り入れて洗練される。
大規模シミュレーションデータセット上でのSoundLoc3Dの有効性と優位性を実証し,RGB-D測定の不正確性と環境騒音干渉に対するロバスト性を示す。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。
互いに補完する2つのモダリティの役割を見出した。
今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文 参考訳(メタデータ) (2024-06-01T16:47:07Z) - Novel-View Acoustic Synthesis from 3D Reconstructed Rooms [17.72902700567848]
そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
論文 参考訳(メタデータ) (2023-10-23T17:34:31Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。
我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文 参考訳(メタデータ) (2020-07-30T15:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。