論文の概要: Progressive Confident Masking Attention Network for Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2406.02345v1
- Date: Tue, 4 Jun 2024 14:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:00:43.783324
- Title: Progressive Confident Masking Attention Network for Audio-Visual Segmentation
- Title(参考訳): オーディオ・ビジュアル・セグメンテーションのためのプログレッシブ信頼度マスキング注意ネットワーク
- Authors: Yuxuan Wang, Feng Dong, Jinchao Zhu,
- Abstract要約: Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
- 参考スコア(独自算出の注目度): 8.591836399688052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio and visual signals typically occur simultaneously, and humans possess an innate ability to correlate and synchronize information from these two modalities. Recently, a challenging problem known as Audio-Visual Segmentation (AVS) has emerged, intending to produce segmentation maps for sounding objects within a scene. However, the methods proposed so far have not sufficiently integrated audio and visual information, and the computational costs have been extremely high. Additionally, the outputs of different stages have not been fully utilized. To facilitate this research, we introduce a novel Progressive Confident Masking Attention Network (PMCANet). It leverages attention mechanisms to uncover the intrinsic correlations between audio signals and visual frames. Furthermore, we design an efficient and effective cross-attention module to enhance semantic perception by selecting query tokens. This selection is determined through confidence-driven units based on the network's multi-stage predictive outputs. Experiments demonstrate that our network outperforms other AVS methods while requiring less computational resources.
- Abstract(参考訳): 通常、音声信号と視覚信号は同時に発生し、人間はこれらの2つのモードから情報を関連付け、同期する能力を持っている。
近年,シーン内の物体を聴くためのセグメンテーションマップを作成することを目的として,AVS(Audio-Visual Segmentation)と呼ばれる課題が出現している。
しかし,これまでに提案した手法は十分に統合されていないため,計算コストは極めて高い。
さらに、異なる段階の出力が完全に活用されていない。
本研究では,PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの内在的相関を明らかにする。
さらに,クエリトークンを選択することで意味認識を高めるために,効率的かつ効果的なクロスアテンションモジュールを設計する。
この選択は、ネットワークの多段階予測出力に基づいて信頼性駆動ユニットによって決定される。
実験により、我々のネットワークは計算資源を少なくしながら、他のAVS手法よりも優れていることが示された。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual
Speech Separation [36.935137240527204]
音声・視覚的特徴融合に注意機構を利用するIIANet(Intra- and Inter-Attention Network)と呼ばれる新しいモデルを提案する。
IIANetは、イントラアテンションブロック(IntraA)とインターアテンションブロック(InterA)の2つのタイプのアテンションブロックで構成されている。
3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により,IIANetの有効性が実証された。
論文 参考訳(メタデータ) (2023-08-16T04:31:33Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。