論文の概要: 3D Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2411.02236v1
- Date: Mon, 04 Nov 2024 16:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:14.968038
- Title: 3D Audio-Visual Segmentation
- Title(参考訳): 3次元オーディオ・ビジュアル・セグメンテーション
- Authors: Artem Sokolov, Swapnil Bhosale, Xiatian Zhu,
- Abstract要約: ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
- 参考スコア(独自算出の注目度): 44.61476023587931
- License:
- Abstract: Recognizing the sounding objects in scenes is a longstanding objective in embodied AI, with diverse applications in robotics and AR/VR/MR. To that end, Audio-Visual Segmentation (AVS), taking as condition an audio signal to identify the masks of the target sounding objects in an input image with synchronous camera and microphone sensors, has been recently advanced. However, this paradigm is still insufficient for real-world operation, as the mapping from 2D images to 3D scenes is missing. To address this fundamental limitation, we introduce a novel research problem, 3D Audio-Visual Segmentation, extending the existing AVS to the 3D output space. This problem poses more challenges due to variations in camera extrinsics, audio scattering, occlusions, and diverse acoustics across sounding object categories. To facilitate this research, we create the very first simulation based benchmark, 3DAVS-S34-O7, providing photorealistic 3D scene environments with grounded spatial audio under single-instance and multi-instance settings, across 34 scenes and 7 object categories. This is made possible by re-purposing the Habitat simulator to generate comprehensive annotations of sounding object locations and corresponding 3D masks. Subsequently, we propose a new approach, EchoSegnet, characterized by integrating the ready-to-use knowledge from pretrained 2D audio-visual foundation models synergistically with 3D visual scene representation through spatial audio-aware mask alignment and refinement. Extensive experiments demonstrate that EchoSegnet can effectively segment sounding objects in 3D space on our new benchmark, representing a significant advancement in the field of embodied AI. Project page: https://surrey-uplab.github.io/research/3d-audio-visual-segmentation/
- Abstract(参考訳): ロボット工学やAR/VR/MRに様々な応用がある。
この目的のために,音声信号を用いて,同期カメラとマイクロホンセンサを用いた入力画像中のターゲット音像のマスクを識別するAVS(Audio-Visual Segmentation)が最近進歩している。
しかし、このパラダイムは2次元画像から3次元シーンへのマッピングが欠落しているため、実世界の運用には不十分である。
この基本的な制限に対処するために,既存のAVSを3D出力空間に拡張する3Dオーディオ・ビジュアル・セグメンテーションという新たな研究課題を導入する。
この問題は、カメラ外在物、音声散乱、閉塞物、および音響カテゴリーの多様な音響の変動により、より困難なものとなる。
そこで,本研究では,34のシーンと7つのオブジェクトカテゴリにまたがって,単一インスタンスと複数インスタンス設定で空間オーディオを接地した3Dシーン環境を実現する,初めてのシミュレーションベースベンチマーク3DAVS-S34-O7を構築した。
これは、Habitatシミュレータを再購入して、音場とそれに対応する3Dマスクの包括的なアノテーションを生成することで実現されている。
次に,空間的音声認識マスクアライメントと改善により,事前学習した2次元視覚基礎モデルからの知識を3次元映像表現と相乗的に統合する,新しいアプローチであるEchoSegnetを提案する。
大規模な実験により、EchoSegnetは、私たちの新しいベンチマークで3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
プロジェクトページ: https://surrey-uplab.github.io/research/3d-audio-visual-segmentation/
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Audio-Visual Segmentation with Semantics [45.5917563087477]
オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
論文 参考訳(メタデータ) (2023-01-30T18:53:32Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Echo-Reconstruction: Audio-Augmented 3D Scene Reconstruction [30.951713301164016]
窓、鏡、壁などの反射面とテクスチャのない面は、オブジェクトやシーンの再構築に難題である。
仮想会議,遠隔操作,その他のAR/VR体験のための幾何学的・音響的再構成を支援するために,音の反射を利用した音声-視覚的手法であるEchoreconstructionを提案する。
論文 参考訳(メタデータ) (2021-10-05T23:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。