論文の概要: MAGIC: Map-Guided Few-Shot Audio-Visual Acoustics Modeling
- arxiv url: http://arxiv.org/abs/2405.13860v1
- Date: Wed, 22 May 2024 17:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 21:02:51.475263
- Title: MAGIC: Map-Guided Few-Shot Audio-Visual Acoustics Modeling
- Title(参考訳): MAGIC:Map-Guided Few-Shot Audio-Visual Acoustics Modeling
- Authors: Diwei Huang, Kunyang Lin, Peihao Chen, Qing Du, Mingkui Tan,
- Abstract要約: 音声・視覚音響のモデリングは、任意の場所における部屋のインパルス応答を、ほとんどショットの観測で合成しようと試みている。
シーンの音響関連視覚的特徴マップを構築することで,その枠組みを提示する。
視覚的特徴は、音と地図に関する意味的な詳細を保存し、音の伝搬の明確な構造的規則性を提供する。
- 参考スコア(独自算出の注目度): 37.07752008084887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot audio-visual acoustics modeling seeks to synthesize the room impulse response in arbitrary locations with few-shot observations. To sufficiently exploit the provided few-shot data for accurate acoustic modeling, we present a *map-guided* framework by constructing acoustic-related visual semantic feature maps of the scenes. Visual features preserve semantic details related to sound and maps provide explicit structural regularities of sound propagation, which are valuable for modeling environment acoustics. We thus extract pixel-wise semantic features derived from observations and project them into a top-down map, namely the **observation semantic map**. This map contains the relative positional information among points and the semantic feature information associated with each point. Yet, limited information extracted by few-shot observations on the map is not sufficient for understanding and modeling the whole scene. We address the challenge by generating a **scene semantic map** via diffusing features and anticipating the observation semantic map. The scene semantic map then interacts with echo encoding by a transformer-based encoder-decoder to predict RIR for arbitrary speaker-listener query pairs. Extensive experiments on Matterport3D and Replica dataset verify the efficacy of our framework.
- Abstract(参考訳): 音声・視覚音響のモデリングは、任意の場所における部屋のインパルス応答を、ほとんどショットの観測で合成しようと試みている。
得られた少数ショットデータを精度の高い音響モデルに十分に活用するために,シーンの音響関連視覚的意味特徴マップを構築することで,*map-guided*フレームワークを提案する。
視覚的特徴は、音と地図に関する意味的詳細を保存し、環境音響をモデル化するのに有用な、音の伝搬の明確な構造的規則性を提供する。
そこで我々は、観測から得られた画素単位のセマンティック特徴を抽出し、それらをトップダウンマップ、すなわち**観測セマンティックマップ*に投影する。
この地図は、ポイント間の相対的な位置情報と、各ポイントに関連する意味的特徴情報とを含む。
しかし、地図上の数発の観察によって抽出された限られた情報は、シーン全体の理解とモデリングには不十分である。
本稿では,**sceneのセマンティックマップ*を拡散機能によって生成し,観察セマンティックマップを予測することによって,課題に対処する。
次に、シーンセマンティックマップは変換器ベースのエンコーダデコーダによるエコー符号化と相互作用し、任意の話者-リスナークエリペアに対するRIRを予測する。
Matterport3DとReplicaのデータセットに関する大規模な実験により、我々のフレームワークの有効性が検証された。
関連論文リスト
- 3D LiDAR Mapping in Dynamic Environments Using a 4D Implicit Neural Representation [33.92758288570465]
正確な地図の構築は、自動運転車の信頼性の高いローカライゼーション、計画、ナビゲーションを可能にする重要なビルディングブロックである。
我々は、4Dシーンを新しい暗黙的ニューラルマップ表現に符号化する。
提案手法は, 高精度で完全な3次元地図を再構成しながら, 入力点雲の動的部分を除去することができる。
論文 参考訳(メタデータ) (2024-05-06T11:46:04Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Semantically-aware Neural Radiance Fields for Visual Scene
Understanding: A Comprehensive Review [26.436253160392123]
視覚的シーン理解における意味的認識型ニューラルレイディアンスフィールド(NeRF)の役割を概観する。
NeRFはシーン内の静止オブジェクトと動的オブジェクトの両方に対して3D表現を正確に推論する。
論文 参考訳(メタデータ) (2024-02-17T00:15:09Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - Unsupervised Acoustic Scene Mapping Based on Acoustic Features and
Dimensionality Reduction [18.641610823584433]
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
論文 参考訳(メタデータ) (2023-01-01T17:46:09Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。