論文の概要: Multimodal Variational Auto-encoder based Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2310.08303v1
- Date: Thu, 12 Oct 2023 13:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 10:49:11.580285
- Title: Multimodal Variational Auto-encoder based Audio-Visual Segmentation
- Title(参考訳): マルチモーダル変分オートエンコーダに基づく視聴覚セグメンテーション
- Authors: Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai
- Abstract要約: ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
- 参考スコア(独自算出の注目度): 46.67599800471001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an Explicit Conditional Multimodal Variational Auto-Encoder
(ECMVAE) for audio-visual segmentation (AVS), aiming to segment sound sources
in the video sequence. Existing AVS methods focus on implicit feature fusion
strategies, where models are trained to fit the discrete samples in the
dataset. With a limited and less diverse dataset, the resulting performance is
usually unsatisfactory. In contrast, we address this problem from an effective
representation learning perspective, aiming to model the contribution of each
modality explicitly. Specifically, we find that audio contains critical
category information of the sound producers, and visual data provides candidate
sound producer(s). Their shared information corresponds to the target sound
producer(s) shown in the visual data. In this case, cross-modal shared
representation learning is especially important for AVS. To achieve this, our
ECMVAE factorizes the representations of each modality with a modality-shared
representation and a modality-specific representation. An orthogonality
constraint is applied between the shared and specific representations to
maintain the exclusive attribute of the factorized latent code. Further, a
mutual information maximization regularizer is introduced to achieve extensive
exploration of each modality. Quantitative and qualitative evaluations on the
AVSBench demonstrate the effectiveness of our approach, leading to a new
state-of-the-art for AVS, with a 3.84 mIOU performance leap on the challenging
MS3 subset for multiple sound source segmentation.
- Abstract(参考訳): 本稿では,映像系列における音源のセグメント化を目的とした,音声視覚分割のためのECMVAE(Explicit Conditional Multimodal Variational Auto-Encoder)を提案する。
既存のavsメソッドは暗黙の機能融合戦略にフォーカスしており、モデルがデータセット内の離散的なサンプルに適合するように訓練されている。
限定的で多様性の低いデータセットでは、結果のパフォーマンスは通常満足できない。
対照的に,この問題を効果的な表現学習の観点から解決し,各モダリティの寄与を明示的にモデル化することを目指している。
具体的には、音声には音響プロデューサーのクリティカルカテゴリ情報が含まれており、視覚データは候補音声プロデューサー(s)を提供する。
それらの共有情報は、視覚データに示されるターゲットサウンドプロデューサ(s)に対応する。
この場合、AVSでは、クロスモーダル共有表現学習が特に重要である。
これを実現するために、ECMVAEは、モダリティ共有表現とモダリティ固有表現で各モダリティの表現を分解する。
直交性制約は共有表現と特定の表現の間で適用され、因果化された潜在コードの排他的属性を維持する。
さらに、相互情報最大化正規化器を導入し、各モードを広範囲に探索する。
AVSBenchの定量的および定性的な評価は、我々のアプローチの有効性を実証し、AVSの新たな最先端技術となり、3.84mIOUの性能は、複数の音源セグメンテーションのための挑戦的なMS3サブセットに飛躍する。
関連論文リスト
- Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。