論文の概要: Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2507.00669v1
- Date: Tue, 01 Jul 2025 11:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.591097
- Title: Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding
- Title(参考訳): Audio-3DVG: 3Dビジュアルグラウンドのための統合オーディオ-ポイントクラウドフュージョン
- Authors: Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy M. H. Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang,
- Abstract要約: 3Dビジュアルグラウンディングでは、自然言語に基づいた3Dポイントクラウドにターゲットオブジェクトをローカライズする。
本研究では,音場情報と空間情報を統合してグラウンド化を促進するフレームワークであるAudio-3DVGを提案する。
- 参考スコア(独自算出の注目度): 5.149468267417653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Visual Grounding (3DVG) involves localizing target objects in 3D point clouds based on natural language. While prior work has made strides using textual descriptions, leveraging spoken language-known as Audio-based 3D Visual Grounding-remains underexplored and challenging. Motivated by advances in automatic speech recognition (ASR) and speech representation learning, we propose Audio-3DVG, a simple yet effective framework that integrates audio and spatial information for enhanced grounding. Rather than treating speech as a monolithic input, we decompose the task into two complementary components. First, we introduce Object Mention Detection, a multi-label classification task that explicitly identifies which objects are referred to in the audio, enabling more structured audio-scene reasoning. Second, we propose an Audio-Guided Attention module that captures interactions between candidate objects and relational speech cues, improving target discrimination in cluttered scenes. To support benchmarking, we synthesize audio descriptions for standard 3DVG datasets, including ScanRefer, Sr3D, and Nr3D. Experimental results demonstrate that Audio-3DVG not only achieves new state-of-the-art performance in audio-based grounding, but also competes with text-based methods-highlighting the promise of integrating spoken language into 3D vision tasks.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)は、自然言語に基づいて3Dポイントクラウドにターゲットオブジェクトをローカライズする。
以前の作業では、音声ベースの3Dビジュアルグラウンディング(Visual Grounding-Remains)として知られる音声言語を活用しながら、テキスト記述の使用に力を入れている。
音声認識(ASR)と音声表現学習(ASR)の進歩により,音声と空間情報を統合した簡易かつ効果的なフレームワークであるAudio-3DVGを提案する。
音声をモノリシックな入力として扱うのではなく、タスクを2つの補完的なコンポーネントに分解する。
まず、音声中のどのオブジェクトを参照しているかを明確に識別し、より構造化された音声シーンの推論を可能にするマルチラベル分類タスクであるObject Mention Detectionを紹介する。
第2に,対象物と関係音声の相互作用を捕捉し,散らばったシーンのターゲット識別を改善するオーディオガイドアテンションモジュールを提案する。
ベンチマークをサポートするため,ScanRefer,Sr3D,Nr3Dなどの標準3DVGデータセットの音声記述を合成する。
実験結果から,Audio-3DVGは音声ベースのグラウンドリングにおいて,新たな最先端のパフォーマンスを実現するだけでなく,音声言語を3次元視覚タスクに統合するという約束をテキストベースの手法と競合することが示された。
関連論文リスト
- I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs [25.623097766581147]
SpeechReferは、3DVGフレームワークで、ノイズや曖昧な音声からテキストへの書き起こしの存在下での性能を高めるように設計されている。
まず,音声関連語間の音響的類似性を抽出する。
第二に、Contrastive Complementary Moduleは、間違ったテキスト特徴と対応する音声特徴とを一致させるために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2025-06-17T13:17:31Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。