論文の概要: PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition
- arxiv url: http://arxiv.org/abs/2605.07154v1
- Date: Fri, 08 May 2026 02:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.755496
- Title: PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition
- Title(参考訳): PRIMED:バイザーズド・コンペティションによるオーディオ・ビジュアル・セグメンテーションの適応的モダリティ抑制
- Authors: Yuchen He, Jing Zhang,
- Abstract要約: Referring Audio-Visual (Ref-AVS)は、視覚的、聴覚的、テキスト的参照キューに基づいて、ターゲットオブジェクトをビデオフレームにローカライズし、セグメント化する。
本稿では,認知神経科学における偏りのある競合理論に着想を得たPRIMEDを提案する。
- 参考スコア(独自算出の注目度): 9.145417637255651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Audio-Visual Segmentation (Ref-AVS) seeks to localize and segment target objects in video frames based on visual, auditory, and textual referring cues. The task is challenging because the relevance of different modalities varies across referring expressions and scenes, while existing methods typically treat multimodal cues as homogeneous inputs for fusion, prompting, or reasoning, making them vulnerable to irrelevant or misleading modalities. To address this problem, we propose PRIMED, inspired by the biased competition theory in cognitive neuroscience, which explicitly models both visual perception and language-driven prior modulation, and enables more accurate Ref-AVS by adaptive modality suppression. Specifically, a Modality Prior Decoder first estimates whether the referring expression relies primarily on audio, vision, or their joint interaction, generating a modality prior to adaptively guide high-level attention. A Token Distiller further extracts compact global visual tokens from high-level features and shares them across Competition-aware Cross-modal Fusion modules to provide hierarchical global context. Additionally, we introduce a Spatial-Aware Semantic Alignment loss to further enhance foreground-background discrimination through contrastive learning. Extensive experiments on the Ref-AVS benchmark demonstrate that PRIMED achieves state-of-the-art overall performance.
- Abstract(参考訳): Referring Audio-Visual Segmentation (Ref-AVS)は、視覚的、聴覚的、テキスト的参照キューに基づいて、ターゲットオブジェクトをビデオフレームにローカライズし、セグメント化する。
この課題は、異なるモダリティの関連性は、参照表現やシーンによって異なるため、既存の手法では、融合、プロンプト、推論のための均質な入力としてマルチモーダルキューを扱い、それらが無関係または誤解を招くモダリティに対して脆弱である。
この問題に対処するために,認知神経科学におけるバイアス付き競合理論に着想を得たPRIMEDを提案し,視覚知覚と言語駆動による事前変調の両方を明示的にモデル化し,適応的モダリティ抑制によりより正確なRef-AVSを実現する。
具体的には、Modality Prior Decoderはまず、参照表現が主に音声、視覚、またはそれらの関節相互作用に依存しているかどうかを推定し、高レベルの注意を適応的に導く前にモダリティを生成する。
Token Distillerは、高レベルの特徴からコンパクトなグローバルなビジュアルトークンを抽出し、コンペティション対応のクロスモーダルフュージョンモジュール間で共有し、階層的なグローバルコンテキストを提供する。
さらに,空間認識のセマンティック・アライメント・アライメント・ロスを導入し,コントラスト学習による前景背景識別をさらに強化する。
Ref-AVSベンチマークの大規模な実験は、PRIMEDが最先端の全体的な性能を達成することを示した。
関連論文リスト
- ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration [71.21097024566285]
LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:49:50Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。