論文の概要: SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing
- arxiv url: http://arxiv.org/abs/2506.05414v1
- Date: Wed, 04 Jun 2025 19:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.140233
- Title: SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing
- Title(参考訳): SAVVY:視聴・聴取による視覚的LLMによる空間認識
- Authors: Mingfei Chen, Zijun Cui, Xiulong Liu, Jinlin Xiang, Caleb Zheng, Jingyuan Li, Eli Shlizerman,
- Abstract要約: ダイナミック・オーディオ・視覚環境における3次元空間推論は人間の認知の基盤となる。
SAVVYは、動的シーンにおける3次元空間推論のための最初のベンチマークである。
- 参考スコア(独自算出の注目度): 17.185628958975528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D spatial reasoning in dynamic, audio-visual environments is a cornerstone of human cognition yet remains largely unexplored by existing Audio-Visual Large Language Models (AV-LLMs) and benchmarks, which predominantly focus on static or 2D scenes. We introduce SAVVY-Bench, the first benchmark for 3D spatial reasoning in dynamic scenes with synchronized spatial audio. SAVVY-Bench is comprised of thousands of relationships involving static and moving objects, and requires fine-grained temporal grounding, consistent 3D localization, and multi-modal annotation. To tackle this challenge, we propose SAVVY, a novel training-free reasoning pipeline that consists of two stages: (i) Egocentric Spatial Tracks Estimation, which leverages AV-LLMs as well as other audio-visual methods to track the trajectories of key objects related to the query using both visual and spatial audio cues, and (ii) Dynamic Global Map Construction, which aggregates multi-modal queried object trajectories and converts them into a unified global dynamic map. Using the constructed map, a final QA answer is obtained through a coordinate transformation that aligns the global map with the queried viewpoint. Empirical evaluation demonstrates that SAVVY substantially enhances performance of state-of-the-art AV-LLMs, setting a new standard and stage for approaching dynamic 3D spatial reasoning in AV-LLMs.
- Abstract(参考訳): 動的・オーディオ・視覚環境における3次元空間推論は人間の認知の基盤であるが、既存のオーディオ・ビジュアル・大規模言語モデル(AV-LLM)やベンチマークによってほとんど解明されていない。
SAVVY-Benchは動的シーンにおける3次元空間推論のための最初のベンチマークである。
SAVVY-Benchは静的および移動物体を含む何千もの関係から構成されており、微細な時間的接地、一貫した3Dローカライゼーション、マルチモーダルアノテーションを必要とする。
この課題に対処するために,2段階からなる新たなトレーニングフリー推論パイプラインであるSAVVYを提案する。
一 視覚的・空間的オーディオキューを用いて、クエリに関連するキーオブジェクトの軌跡をトラックするためのAV-LLMや他の視覚的手法を利用するエゴセントリックな空間的トラック推定
(ii) 動的グローバルマップ構築(Dynamic Global Map Construction)は、マルチモーダルなクエリされたオブジェクトトラジェクトリを集約し、それらを統一されたグローバルな動的マップに変換する。
構築された地図を用いて、最終QA回答は、グローバルマップとクエリされた視点を整列する座標変換によって得られる。
実験により, SAVVYは最先端のAV-LLMの性能を大幅に向上させ, AV-LLMの動的3次元空間推論にアプローチするための新しい標準と段階を設定できることを示した。
関連論文リスト
- POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations [37.61183525419993]
動的表現のキャプチャによる視覚に基づくロバストなセマンティックなシーンコンプリートを提案する。
マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。
シーン情報を動的・静的な特徴に分離するために,単眼・立体的深度の特徴を利用する。
論文 参考訳(メタデータ) (2025-03-08T13:49:43Z) - 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。