Fugu-MT 論文翻訳(概要): PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition

論文の概要: PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition

arxiv url: http://arxiv.org/abs/2605.07154v1
Date: Fri, 08 May 2026 02:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.755496
Title: PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition
Title（参考訳）: PRIMED:バイザーズド・コンペティションによるオーディオ・ビジュアル・セグメンテーションの適応的モダリティ抑制
Authors: Yuchen He, Jing Zhang,
Abstract要約: Referring Audio-Visual (Ref-AVS)は、視覚的、聴覚的、テキスト的参照キューに基づいて、ターゲットオブジェクトをビデオフレームにローカライズし、セグメント化する。本稿では,認知神経科学における偏りのある競合理論に着想を得たPRIMEDを提案する。
参考スコア（独自算出の注目度）: 9.145417637255651
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Referring Audio-Visual Segmentation (Ref-AVS) seeks to localize and segment target objects in video frames based on visual, auditory, and textual referring cues. The task is challenging because the relevance of different modalities varies across referring expressions and scenes, while existing methods typically treat multimodal cues as homogeneous inputs for fusion, prompting, or reasoning, making them vulnerable to irrelevant or misleading modalities. To address this problem, we propose PRIMED, inspired by the biased competition theory in cognitive neuroscience, which explicitly models both visual perception and language-driven prior modulation, and enables more accurate Ref-AVS by adaptive modality suppression. Specifically, a Modality Prior Decoder first estimates whether the referring expression relies primarily on audio, vision, or their joint interaction, generating a modality prior to adaptively guide high-level attention. A Token Distiller further extracts compact global visual tokens from high-level features and shares them across Competition-aware Cross-modal Fusion modules to provide hierarchical global context. Additionally, we introduce a Spatial-Aware Semantic Alignment loss to further enhance foreground-background discrimination through contrastive learning. Extensive experiments on the Ref-AVS benchmark demonstrate that PRIMED achieves state-of-the-art overall performance.
Abstract（参考訳）: Referring Audio-Visual Segmentation (Ref-AVS)は、視覚的、聴覚的、テキスト的参照キューに基づいて、ターゲットオブジェクトをビデオフレームにローカライズし、セグメント化する。この課題は、異なるモダリティの関連性は、参照表現やシーンによって異なるため、既存の手法では、融合、プロンプト、推論のための均質な入力としてマルチモーダルキューを扱い、それらが無関係または誤解を招くモダリティに対して脆弱である。この問題に対処するために,認知神経科学におけるバイアス付き競合理論に着想を得たPRIMEDを提案し,視覚知覚と言語駆動による事前変調の両方を明示的にモデル化し,適応的モダリティ抑制によりより正確なRef-AVSを実現する。具体的には、Modality Prior Decoderはまず、参照表現が主に音声、視覚、またはそれらの関節相互作用に依存しているかどうかを推定し、高レベルの注意を適応的に導く前にモダリティを生成する。 Token Distillerは、高レベルの特徴からコンパクトなグローバルなビジュアルトークンを抽出し、コンペティション対応のクロスモーダルフュージョンモジュール間で共有し、階層的なグローバルコンテキストを提供する。さらに,空間認識のセマンティック・アライメント・アライメント・ロスを導入し,コントラスト学習による前景背景識別をさらに強化する。 Ref-AVSベンチマークの大規模な実験は、PRIMEDが最先端の全体的な性能を達成することを示した。

論文の概要: PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition

関連論文リスト