論文の概要: Can Textual Semantics Mitigate Sounding Object Segmentation Preference?
- arxiv url: http://arxiv.org/abs/2407.10947v1
- Date: Mon, 15 Jul 2024 17:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:51:02.251446
- Title: Can Textual Semantics Mitigate Sounding Object Segmentation Preference?
- Title(参考訳): テキストセマンティクスは音質オブジェクトのセグメンテーションを緩和できるか?
- Authors: Yaoting Wang, Peiwen Sun, Yuanchao Li, Honggang Zhang, Di Hu,
- Abstract要約: 音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
- 参考スコア(独自算出の注目度): 10.368382203643739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Audio-Visual Segmentation (AVS) task aims to segment sounding objects in the visual space using audio cues. However, in this work, it is recognized that previous AVS methods show a heavy reliance on detrimental segmentation preferences related to audible objects, rather than precise audio guidance. We argue that the primary reason is that audio lacks robust semantics compared to vision, especially in multi-source sounding scenes, resulting in weak audio guidance over the visual space. Motivated by the the fact that text modality is well explored and contains rich abstract semantics, we propose leveraging text cues from the visual scene to enhance audio guidance with the semantics inherent in text. Our approach begins by obtaining scene descriptions through an off-the-shelf image captioner and prompting a frozen large language model to deduce potential sounding objects as text cues. Subsequently, we introduce a novel semantics-driven audio modeling module with a dynamic mask to integrate audio features with text cues, leading to representative sounding object features. These features not only encompass audio cues but also possess vivid semantics, providing clearer guidance in the visual space. Experimental results on AVS benchmarks validate that our method exhibits enhanced sensitivity to audio when aided by text cues, achieving highly competitive performance on all three subsets. Project page: \href{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(AVS)タスクは、オーディオキューを使用して、視覚空間内の音のオブジェクトをセグメントすることを目的としている。
しかし,本研究では,従来のAVS手法は正確な音声誘導よりも,可聴物体に関する有害なセグメンテーションの嗜好に大きく依存していることが認識されている。
主な理由は、特にマルチソースの音響シーンにおいて、音声が視覚に比べて頑健な意味論を欠いているため、視覚空間上でのオーディオガイダンスが弱くなるためである。
テキストのモダリティがよく検討され,豊富な抽象意味論を含むという事実に触発され,テキスト固有のセマンティクスによる音声指導を強化するために,視覚シーンからのテキストキューを活用することを提案する。
提案手法は,市販画像キャプタを用いてシーン記述を取得し,凍結した大言語モデルにテキストの手がかりとして潜在的音声オブジェクトを推論することから始まる。
次に,動的マスク付きセマンティクス駆動型音声モデリングモジュールを導入し,音声特徴をテキストキューと統合し,代表的な音声オブジェクト特徴を実現する。
これらの特徴は、オーディオキューだけでなく、鮮明なセマンティクスも備えており、視覚空間におけるより明確なガイダンスを提供する。
AVSベンチマークによる実験結果から,本手法は3つのサブセットすべてに対して高い競争性能を達成でき,音声に対する感度が向上することが確認された。
プロジェクトページ: \href{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-Visual Segmentation with Semantics [45.5917563087477]
オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
論文 参考訳(メタデータ) (2023-01-30T18:53:32Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。