論文の概要: Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation
- arxiv url: http://arxiv.org/abs/2511.22025v1
- Date: Thu, 27 Nov 2025 02:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.355134
- Title: Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation
- Title(参考訳): Layoverとダイレクトフライト:オーディオガイドによる画像分割を再考
- Authors: Joel Alberto Santos, Zongwei Wu, Xavier Alameda-Pineda, Radu Timofte,
- Abstract要約: 対象の接地、すなわち、人間の言葉による指示に基づく視覚的シーンへの関心対象の定位に焦点を当てる。
この可能性を探るため、単一単語音声命令の接地に着目してタスクを簡素化する。
以上の結果から,音声からの直接的接地は実現可能であるだけでなく,場合によっては書き起こしに基づく手法よりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 65.7990140284317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human instructions is essential for enabling smooth human-robot interaction. In this work, we focus on object grounding, i.e., localizing an object of interest in a visual scene (e.g., an image) based on verbal human instructions. Despite recent progress, a dominant research trend relies on using text as an intermediate representation. These approaches typically transcribe speech to text, extract relevant object keywords, and perform grounding using models pretrained on large text-vision datasets. However, we question both the efficiency and robustness of such transcription-based pipelines. Specifically, we ask: Can we achieve direct audio-visual alignment without relying on text? To explore this possibility, we simplify the task by focusing on grounding from single-word spoken instructions. We introduce a new audio-based grounding dataset that covers a wide variety of objects and diverse human accents. We then adapt and benchmark several models from the closely audio-visual field. Our results demonstrate that direct grounding from audio is not only feasible but, in some cases, even outperforms transcription-based methods, especially in terms of robustness to linguistic variability. Our findings encourage a renewed interest in direct audio grounding and pave the way for more robust and efficient multimodal understanding systems.
- Abstract(参考訳): 人間の指示を理解することは、スムーズな人間とロボットの相互作用を可能にするために不可欠である。
本研究は,対象の接地,すなわち,人間の指示に基づく視覚シーン(例えば画像)への関心対象の局在に着目した。
近年の進歩にもかかわらず、研究の主流はテキストを中間表現として使うことに依存している。
これらのアプローチは通常、音声をテキストに書き起こし、関連するオブジェクトキーワードを抽出し、大きなテキストビジョンデータセットで事前訓練されたモデルを使用してグラウンドディングを行う。
しかし、このような転写に基づくパイプラインの効率性とロバスト性には疑問がある。
具体的には、テキストに頼ることなく、直接の音声・視覚的アライメントを達成できますか?
この可能性を探るため、単一単語音声命令の接地に着目してタスクを簡素化する。
多様なオブジェクトと多様な人間のアクセントをカバーする新しい音声ベースグラウンドデータセットを提案する。
次に、近い音声・視覚領域からいくつかのモデルを適応し、ベンチマークする。
以上の結果から,音声からの直接的接地は実現可能であるだけでなく,特に言語的変動性に対する頑健性において,書き起こしに基づく手法よりも優れていることが示唆された。
本研究は, より堅牢で効率的なマルチモーダル理解システムの実現に向けて, 直接的音声接地への新たな関心を喚起するものである。
関連論文リスト
- Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。
以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。
これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文 参考訳(メタデータ) (2025-11-20T19:17:35Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。