論文の概要: Complementary and Contrastive Learning for Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2510.10051v1
- Date: Sat, 11 Oct 2025 06:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.751814
- Title: Complementary and Contrastive Learning for Audio-Visual Segmentation
- Title(参考訳): オーディオ・ビジュアル・セグメンテーションのための補完的・コントラスト的学習
- Authors: Sitong Gong, Yunzhi Zhuge, Lu Zhang, Pingping Zhang, Huchuan Lu,
- Abstract要約: 本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
- 参考スコア(独自算出の注目度): 74.11434759171199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Segmentation (AVS) aims to generate pixel-wise segmentation maps that correlate with the auditory signals of objects. This field has seen significant progress with numerous CNN and Transformer-based methods enhancing the segmentation accuracy and robustness. Traditional CNN approaches manage audio-visual interactions through basic operations like padding and multiplications but are restricted by CNNs' limited local receptive field. More recently, Transformer-based methods treat auditory cues as queries, utilizing attention mechanisms to enhance audio-visual cooperation within frames. Nevertheless, they typically struggle to extract multimodal coefficients and temporal dynamics adequately. To overcome these limitations, we present the Complementary and Contrastive Transformer (CCFormer), a novel framework adept at processing both local and global information and capturing spatial-temporal context comprehensively. Our CCFormer initiates with the Early Integration Module (EIM) that employs a parallel bilateral architecture, merging multi-scale visual features with audio data to boost cross-modal complementarity. To extract the intra-frame spatial features and facilitate the perception of temporal coherence, we introduce the Multi-query Transformer Module (MTM), which dynamically endows audio queries with learning capabilities and models the frame and video-level relations simultaneously. Furthermore, we propose the Bi-modal Contrastive Learning (BCL) to promote the alignment across both modalities in the unified feature space. Through the effective combination of those designs, our method sets new state-of-the-art benchmarks across the S4, MS3 and AVSS datasets. Our source code and model weights will be made publicly available at https://github.com/SitongGong/CCFormer
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション (AVS) は、物体の聴覚信号と相関する画素単位のセグメンテーションマップを生成することを目的としている。
この分野は、多くのCNNとTransformerベースの手法により、セグメンテーションの精度とロバスト性を高めている。
従来のCNNアプローチは、パディングや乗算のような基本的な操作を通じて音声と視覚の相互作用を管理するが、CNNの限定的な局所受容場によって制限される。
最近では、トランスフォーマーに基づく手法が、フレーム内の音声と視覚の協調性を高めるために、アテンションメカニズムを利用して、聴覚の手がかりをクエリとして扱う。
それにもかかわらず、彼らは典型的には多モーダル係数と時間力学を適切に抽出するのに苦労する。
これらの制約を克服するために,ローカル情報とグローバル情報の両方を処理し,空間的コンテキストを包括的にキャプチャする新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
我々のCCFormerは、並列な双方向アーキテクチャを採用し、マルチスケールの視覚特徴とオーディオデータを組み合わせることで、モーダル間の相補性を向上するEarly Integration Module (EIM)で開始する。
フレーム内の空間的特徴を抽出し,時間的コヒーレンスの認識を容易にするために,動的に音声クエリに学習能力を与え,フレームとビデオレベルの関係を同時にモデル化するMTM(Multi-query Transformer Module)を導入する。
さらに,統合された特徴空間における両モード間のアライメントを促進するために,BCL(Bi-modal Contrastive Learning)を提案する。
これらの設計を効果的に組み合わせることで、S4, MS3, AVSSデータセットに新しい最先端のベンチマークを設定する。
ソースコードとモデルの重み付けはhttps://github.com/SitongGong/CCFormerで公開されます。
関連論文リスト
- DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。