論文の概要: I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs
- arxiv url: http://arxiv.org/abs/2506.14495v1
- Date: Tue, 17 Jun 2025 13:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.481134
- Title: I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs
- Title(参考訳): うるさくて曖昧な音声入力によるロバストな3D視覚グラウンド
- Authors: Yu Qi, Lipeng Gu, Honghua Chen, Liangliang Nan, Mingqiang Wei,
- Abstract要約: SpeechReferは、3DVGフレームワークで、ノイズや曖昧な音声からテキストへの書き起こしの存在下での性能を高めるように設計されている。
まず,音声関連語間の音響的類似性を抽出する。
第二に、Contrastive Complementary Moduleは、間違ったテキスト特徴と対応する音声特徴とを一致させるために、対照的な学習を採用する。
- 参考スコア(独自算出の注目度): 25.623097766581147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 3D visual grounding methods rely on precise text prompts to locate objects within 3D scenes. Speech, as a natural and intuitive modality, offers a promising alternative. Real-world speech inputs, however, often suffer from transcription errors due to accents, background noise, and varying speech rates, limiting the applicability of existing 3DVG methods. To address these challenges, we propose \textbf{SpeechRefer}, a novel 3DVG framework designed to enhance performance in the presence of noisy and ambiguous speech-to-text transcriptions. SpeechRefer integrates seamlessly with xisting 3DVG models and introduces two key innovations. First, the Speech Complementary Module captures acoustic similarities between phonetically related words and highlights subtle distinctions, generating complementary proposal scores from the speech signal. This reduces dependence on potentially erroneous transcriptions. Second, the Contrastive Complementary Module employs contrastive learning to align erroneous text features with corresponding speech features, ensuring robust performance even when transcription errors dominate. Extensive experiments on the SpeechRefer and peechNr3D datasets demonstrate that SpeechRefer improves the performance of existing 3DVG methods by a large margin, which highlights SpeechRefer's potential to bridge the gap between noisy speech inputs and reliable 3DVG, enabling more intuitive and practical multimodal systems.
- Abstract(参考訳): 既存の3Dビジュアルグラウンド法は、3Dシーン内でオブジェクトを見つけるための正確なテキストプロンプトに依存している。
自然で直感的なモダリティとしての音声は、有望な代替手段を提供する。
しかし、実世界の音声入力はアクセント、背景雑音、様々な発話率による転写エラーに悩まされ、既存の3DVG手法の適用性が制限される。
これらの課題に対処するために,雑音や曖昧な音声-テキスト書き起こしの存在下での性能向上を目的とした,新しい3DVGフレームワークである「textbf{SpeechRefer}」を提案する。
SpeechReferは、xisting 3DVGモデルとシームレスに統合され、2つの重要なイノベーションを導入している。
まず、音声合成モジュールは音声関連語間の音響的類似性を捉え、音声信号から補足的提案スコアを生成する。
これにより、潜在的に誤った転写への依存が減少する。
第2に、Contrastive Complementary Moduleは、誤りテキスト特徴と対応する音声特徴とを一致させるために、対照的な学習を採用し、書き起こしエラーが支配する場合でも、堅牢な性能を確保する。
SpeechReferとpeechNr3Dデータセットの大規模な実験により、SpeechReferは既存の3DVGメソッドの性能を大きなマージンで改善し、ノイズの多い音声入力と信頼できる3DVGのギャップを埋める可能性を強調し、より直感的で実用的なマルチモーダルシステムを実現する。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。