論文の概要: JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
- arxiv url: http://arxiv.org/abs/2602.18527v1
- Date: Fri, 20 Feb 2026 04:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.137333
- Title: JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
- Title(参考訳): JAEGER:シミュレーション物理環境における3次元オーディオ-ビジュアルグラウンドと推論
- Authors: Zhan Liu, Changli Tang, Yuxin Wang, Zhiyuan Zhu, Youjun Chen, Yiwen Shao, Tianzi Wang, Lei Ke, Zengrui Jin, Chao Zhang,
- Abstract要約: 本稿では, AV-LLMsを3次元空間に拡張し, 共同空間の接地と推論を可能にするフレームワークであるJAEGERを提案する。
我々の研究の中核となる貢献は、学習された空間音響表現である神経強度ベクトル(Neural IV)である。
我々のアプローチは、多様な空間認識と推論タスクにまたがる2D中心のベースラインを一貫して超越している。
- 参考スコア(独自算出の注目度): 34.02990381039783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio. This design choice introduces a fundamental dimensionality mismatch that precludes reliable source localization and spatial reasoning in complex 3D environments. We address this limitation by presenting JAEGER, a framework that extends AV-LLMs to 3D space, to enable joint spatial grounding and reasoning through the integration of RGB-D observations and multi-channel first-order ambisonics. A core contribution of our work is the neural intensity vector (Neural IV), a learned spatial audio representation that encodes robust directional cues to enhance direction-of-arrival estimation, even in adverse acoustic scenarios with overlapping sources. To facilitate large-scale training and systematic evaluation, we propose SpatialSceneQA, a benchmark of 61k instruction-tuning samples curated from simulated physical environments. Extensive experiments demonstrate that our approach consistently surpasses 2D-centric baselines across diverse spatial perception and reasoning tasks, underscoring the necessity of explicit 3D modelling for advancing AI in physical environments. Our source code, pre-trained model checkpoints and datasets will be released upon acceptance.
- Abstract(参考訳): 現在の音声-視覚大言語モデル(AV-LLM)は、主にRGBビデオとモノラルオーディオに依存する2D知覚に制限されている。
この設計選択は、複雑な3次元環境において、信頼性の高いソースローカライゼーションと空間的推論を妨げる基本的な次元的ミスマッチを導入する。
本稿では, AV-LLMsを3次元空間に拡張するフレームワークであるJAEGERを提案することにより, RGB-D観測とマルチチャネル1次アンビソニクスの統合により, 共同空間の接地と推論を可能にする。
我々の研究の中心となる貢献はニューラルインテンシティ・ベクター(Neural IV)であり、重なり合う音源を持つ有害な音響シナリオであっても、ロバストな方向推定を符号化し、方向推定を強化する空間音響表現である。
大規模トレーニングと体系的評価を容易にするため,シミュレーション物理環境から収集した61k命令チューニングサンプルのベンチマークであるSpatialSceneQAを提案する。
大規模な実験により、我々のアプローチは多様な空間認識と推論タスクにまたがる2D中心のベースラインを一貫して超越し、物理的環境におけるAIの進歩に明示的な3Dモデリングが必要であることが示される。
私たちのソースコード、事前訓練されたモデルチェックポイント、データセットは、受け入れ次第リリースされます。
関連論文リスト
- Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。
我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。
VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文 参考訳(メタデータ) (2025-11-18T09:05:26Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing [17.185628958975528]
ダイナミック・オーディオ・視覚環境における3次元空間推論は人間の認知の基盤となる。
SAVVYは、動的シーンにおける3次元空間推論のための最初のベンチマークである。
論文 参考訳(メタデータ) (2025-06-04T19:11:20Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - 3D Audio-Visual Segmentation [52.34970001474347]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。