論文の概要: Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2307.02041v1
- Date: Wed, 5 Jul 2023 05:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:03:37.021287
- Title: Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing
- Title(参考訳): 弱教師付き視聴覚映像解析のためのマルチモーダル不平衡認識勾配変調
- Authors: Jie Fu, Junyu Gao, Changsheng Xu
- Abstract要約: 弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
- 参考スコア(独自算出の注目度): 107.031903351176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised audio-visual video parsing (WS-AVVP) aims to localize the
temporal extents of audio, visual and audio-visual event instances as well as
identify the corresponding event categories with only video-level category
labels for training. Most previous methods pay much attention to refining the
supervision for each modality or extracting fruitful cross-modality information
for more reliable feature learning. None of them have noticed the imbalanced
feature learning between different modalities in the task. In this paper, to
balance the feature learning processes of different modalities, a dynamic
gradient modulation (DGM) mechanism is explored, where a novel and effective
metric function is designed to measure the imbalanced feature learning between
audio and visual modalities. Furthermore, principle analysis indicates that the
multimodal confusing calculation will hamper the precise measurement of
multimodal imbalanced feature learning, which further weakens the effectiveness
of our DGM mechanism. To cope with this issue, a modality-separated decision
unit (MSDU) is designed for more precise measurement of imbalanced feature
learning between audio and visual modalities. Comprehensive experiments are
conducted on public benchmarks and the corresponding experimental results
demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 弱教師付きオーディオ視覚ビデオ解析(WS-AVVP)は、音声、視覚およびオーディオ視覚イベントインスタンスの時間的範囲をローカライズすること、およびトレーニング用のビデオレベルのカテゴリラベルのみを用いて対応するイベントカテゴリを特定することを目的としている。
従来の手法の多くは、各モダリティの監督の見直しや、より信頼性の高い特徴学習のための実りあるモダリティ情報の抽出に多くの注意を払っている。
タスクの異なるモダリティ間の不均衡な特徴学習に気付いていない。
本稿では,異なるモダリティの特徴学習過程のバランスをとるために,動的勾配変調(dgm)機構について検討し,音声と視覚のモダリティ間の不均衡特徴学習を測定するために,新しい効果的な計量関数を考案する。
さらに,マルチモーダル混乱計算は,マルチモーダル不均衡特徴学習の正確な測定を阻害し,dgm機構の有効性をさらに低下させることが示唆された。
この問題に対処するため、モーダリティ分離決定部(MSDU)は、音声と視覚のモダリティ間の不均衡特徴学習をより正確に測定するために設計されている。
総合的な実験を公開ベンチマークで実施し,それに対応する実験結果から提案手法の有効性を実証した。
関連論文リスト
- EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional
Modeling [24.03008887467105]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期性を高めるために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。