Fugu-MT 論文翻訳(概要): Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding

論文の概要: Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding

arxiv url: http://arxiv.org/abs/2507.00669v1
Date: Tue, 01 Jul 2025 11:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.591097
Title: Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding
Title（参考訳）: Audio-3DVG: 3Dビジュアルグラウンドのための統合オーディオ-ポイントクラウドフュージョン
Authors: Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy M. H. Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang,
Abstract要約: 3Dビジュアルグラウンディングでは、自然言語に基づいた3Dポイントクラウドにターゲットオブジェクトをローカライズする。本研究では,音場情報と空間情報を統合してグラウンド化を促進するフレームワークであるAudio-3DVGを提案する。
参考スコア（独自算出の注目度）: 5.149468267417653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D Visual Grounding (3DVG) involves localizing target objects in 3D point clouds based on natural language. While prior work has made strides using textual descriptions, leveraging spoken language-known as Audio-based 3D Visual Grounding-remains underexplored and challenging. Motivated by advances in automatic speech recognition (ASR) and speech representation learning, we propose Audio-3DVG, a simple yet effective framework that integrates audio and spatial information for enhanced grounding. Rather than treating speech as a monolithic input, we decompose the task into two complementary components. First, we introduce Object Mention Detection, a multi-label classification task that explicitly identifies which objects are referred to in the audio, enabling more structured audio-scene reasoning. Second, we propose an Audio-Guided Attention module that captures interactions between candidate objects and relational speech cues, improving target discrimination in cluttered scenes. To support benchmarking, we synthesize audio descriptions for standard 3DVG datasets, including ScanRefer, Sr3D, and Nr3D. Experimental results demonstrate that Audio-3DVG not only achieves new state-of-the-art performance in audio-based grounding, but also competes with text-based methods-highlighting the promise of integrating spoken language into 3D vision tasks.
Abstract（参考訳）: 3Dビジュアルグラウンド(3DVG)は、自然言語に基づいて3Dポイントクラウドにターゲットオブジェクトをローカライズする。以前の作業では、音声ベースの3Dビジュアルグラウンディング(Visual Grounding-Remains)として知られる音声言語を活用しながら、テキスト記述の使用に力を入れている。音声認識(ASR)と音声表現学習(ASR)の進歩により,音声と空間情報を統合した簡易かつ効果的なフレームワークであるAudio-3DVGを提案する。音声をモノリシックな入力として扱うのではなく、タスクを2つの補完的なコンポーネントに分解する。まず、音声中のどのオブジェクトを参照しているかを明確に識別し、より構造化された音声シーンの推論を可能にするマルチラベル分類タスクであるObject Mention Detectionを紹介する。第2に,対象物と関係音声の相互作用を捕捉し,散らばったシーンのターゲット識別を改善するオーディオガイドアテンションモジュールを提案する。ベンチマークをサポートするため,ScanRefer,Sr3D,Nr3Dなどの標準3DVGデータセットの音声記述を合成する。実験結果から,Audio-3DVGは音声ベースのグラウンドリングにおいて,新たな最先端のパフォーマンスを実現するだけでなく,音声言語を3次元視覚タスクに統合するという約束をテキストベースの手法と競合することが示された。

関連論文リスト

I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs [25.623097766581147]
SpeechReferは、3DVGフレームワークで、ノイズや曖昧な音声からテキストへの書き起こしの存在下での性能を高めるように設計されている。まず,音声関連語間の音響的類似性を抽出する。第二に、Contrastive Complementary Moduleは、間違ったテキスト特徴と対応する音声特徴とを一致させるために、対照的な学習を採用する。
論文参考訳（メタデータ） (2025-06-17T13:17:31Z)
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文参考訳（メタデータ） (2024-11-04T16:30:14Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。 2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。 3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-28T22:45:40Z)
Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。 3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文参考訳（メタデータ） (2021-12-16T13:50:23Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)
Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文参考訳（メタデータ） (2020-08-21T18:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。