Fugu-MT 論文翻訳(概要): Selective Noise Suppression and Discriminative Mutual Interaction for Robust Audio-Visual Segmentation

論文の概要: Selective Noise Suppression and Discriminative Mutual Interaction for Robust Audio-Visual Segmentation

arxiv url: http://arxiv.org/abs/2603.14203v1
Date: Sun, 15 Mar 2026 03:22:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.668079
Title: Selective Noise Suppression and Discriminative Mutual Interaction for Robust Audio-Visual Segmentation
Title（参考訳）: ロバスト・オーディオ・ビジュアル・セグメンテーションのための選択的雑音抑圧と識別的相互相互作用
Authors: Kai Peng, Yunzhe Shen, Miao Zhang, Leiye Liu, Yidong Han, Wei Ji, Jingjing Li, Yongri Piao, Huchuan Lu,
Abstract要約: 本稿では,SNRPモジュールとDAMF戦略を備えたSDAVSを提案する。実験により,提案手法はベンチマークAVSデータセットの最先端性能を実現することを示す。
参考スコア（独自算出の注目度）: 59.11043512784162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to capture and segment sounding objects in dynamic visual scenes is crucial for the development of Audio-Visual Segmentation (AVS) tasks. While significant progress has been made in this area, the interaction between audio and visual modalities still requires further exploration. In this work, we aim to answer the following questions: How can a model effectively suppress audio noise while enhancing relevant audio information? How can we achieve discriminative interaction between the audio and visual modalities? To this end, we propose SDAVS, equipped with the Selective Noise-Resilient Processor (SNRP) module and the Discriminative Audio-Visual Mutual Fusion (DAMF) strategy. The proposed SNRP mitigates audio noise interference by selectively emphasizing relevant auditory cues, while DAMF ensures more consistent audio-visual representations. Experimental results demonstrate that our proposed method achieves state-of-the-art performance on benchmark AVS datasets, especially in multi-source and complex scenes. \textit{The code and model are available at https://github.com/happylife-pk/SDAVS}.
Abstract（参考訳）: ダイナミックな視覚シーンにおける音声オブジェクトのキャプチャとセグメント化は、オーディオ・ビジュアル・セグメンテーション(AVS)タスクの開発に不可欠である。この領域では大きな進歩があったが、音声と視覚的モダリティの相互作用はいまだにさらなる探索が必要である。本研究の目的は, モデルが関連する音声情報を強化しつつ, 効果的に音声雑音を抑えられるか, という問いに答えることである。音響と視覚の区別的相互作用をどうやって実現できるか? そこで本稿では,SNRPモジュールとDAMF戦略を備えたSDAVSを提案する。提案したSNRPは、聴覚的手がかりを選択的に強調することによりオーディオノイズ干渉を軽減し、DAMFはより一貫した音声視覚的表現を保証する。実験により,提案手法はベンチマークAVSデータセット,特にマルチソースおよび複雑なシーンにおいて,最先端の性能を実現することを示す。コードとモデルはhttps://github.com/happylife-pk/SDAVS}で公開されている。

関連論文リスト

Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文参考訳（メタデータ） (2025-08-06T09:58:43Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [7.864898315909104]
オーディオ・ビジュアル (AVS) と呼ばれる難題が出現し、シーン内のオブジェクトを音声化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文参考訳（メタデータ） (2023-07-25T03:59:04Z)
Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。 TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文参考訳（メタデータ） (2023-05-12T03:31:04Z)
Visual Sound Localization in the Wild by Cross-Modal Interference Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文参考訳（メタデータ） (2022-02-13T21:06:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。