論文の概要: Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2507.00669v2
- Date: Wed, 13 Aug 2025 00:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.664271
- Title: Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding
- Title(参考訳): Audio-3DVG: 統一オーディオ -- 3Dビジュアルグラウンドのためのポイントクラウドフュージョン
- Authors: Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy M. H. Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang,
- Abstract要約: 3Dビジュアルグラウンディングでは、自然言語に基づいた3Dポイントクラウドにターゲットオブジェクトをローカライズする。
本研究では,音場情報と空間情報を統合してグラウンド化を促進するフレームワークであるAudio-3DVGを提案する。
- 参考スコア(独自算出の注目度): 5.149468267417653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Visual Grounding (3DVG) involves localizing target objects in 3D point clouds based on natural language. While prior work has made strides using textual descriptions, leveraging spoken language-known as Audio-based 3D Visual Grounding-remains underexplored and challenging. Motivated by advances in automatic speech recognition (ASR) and speech representation learning, we propose Audio-3DVG, a simple yet effective framework that integrates audio and spatial information for enhanced grounding. Rather than treating speech as a monolithic input, we decompose the task into two complementary components. First, we introduce (i) Object Mention Detection, a multi-label classification task that explicitly identifies which objects are referred to in the audio, enabling more structured audio-scene reasoning. Second, we propose an (ii) Audio-Guided Attention module that models the interactions between target candidates and mentioned objects, enhancing discrimination in cluttered 3D environments. To support benchmarking, we (iii) synthesize audio descriptions for standard 3DVG datasets, including ScanRefer, Sr3D, and Nr3D. Experimental results demonstrate that Audio-3DVG not only achieves new state-of-the-art performance in audio-based grounding, but also competes with text-based methods, highlight the promise of integrating spoken language into 3D vision tasks.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)は、自然言語に基づいて3Dポイントクラウドにターゲットオブジェクトをローカライズする。
以前の作業では、音声ベースの3Dビジュアルグラウンディング(Visual Grounding-Remains)として知られる音声言語を活用しながら、テキスト記述の使用に力を入れている。
音声認識(ASR)と音声表現学習(ASR)の進歩により,音声と空間情報を統合した簡易かつ効果的なフレームワークであるAudio-3DVGを提案する。
音声をモノリシックな入力として扱うのではなく、タスクを2つの補完的なコンポーネントに分解する。
まず紹介する
(i)オブジェクト・メンション検出(Object Mention Detection)は、音声中のどのオブジェクトを参照しているかを明確に識別し、より構造化された音声シーンの推論を可能にするマルチラベル分類タスクである。
次に,提案する。
(II)対象物と対象物との相互作用をモデル化し,散らばった3D環境における識別を向上するオーディオガイドアテンションモジュール。
ベンチマークをサポートするために、私たちは
(iii) ScanRefer, Sr3D, Nr3Dを含む標準3DVGデータセットの音声記述を合成する。
実験結果から,Audio-3DVGは音声ベースのグラウンドリングにおいて,新たな最先端性能を実現するだけでなく,テキストベースの手法と競合し,音声言語を3次元視覚タスクに統合する可能性を強調した。
関連論文リスト
- I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs [25.623097766581147]
SpeechReferは、3DVGフレームワークで、ノイズや曖昧な音声からテキストへの書き起こしの存在下での性能を高めるように設計されている。
まず,音声関連語間の音響的類似性を抽出する。
第二に、Contrastive Complementary Moduleは、間違ったテキスト特徴と対応する音声特徴とを一致させるために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2025-06-17T13:17:31Z) - AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。