論文の概要: Discrepancy-Aware Attention Network for Enhanced Audio-Visual Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2412.11715v1
- Date: Mon, 16 Dec 2024 12:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:26.563504
- Title: Discrepancy-Aware Attention Network for Enhanced Audio-Visual Zero-Shot Learning
- Title(参考訳): オーディオ・ビジュアルゼロショット学習のための離散性認識型注意ネットワーク
- Authors: RunLin Yu, Yipu Gong, Wenrui Li, Aiwen Sun, Mengren Zheng,
- Abstract要約: オーディオ・ビジュアルZSLのためのDAAN(Disdisrepancy-Aware Attention Network)を提案する。
提案手法では,QDMA(Quality-Discrepancy Attention)ユニットを導入し,高品質なモダリティにおいて冗長な情報を最小化する。
実験では、ベンチマークデータセット上でDAANの最先端のパフォーマンスを実証する。
- 参考スコア(独自算出の注目度): 1.8175282137722093
- License:
- Abstract: Audio-visual Zero-Shot Learning (ZSL) has attracted significant attention for its ability to identify unseen classes and perform well in video classification tasks. However, modal imbalance in (G)ZSL leads to over-reliance on the optimal modality, reducing discriminative capabilities for unseen classes. Some studies have attempted to address this issue by modifying parameter gradients, but two challenges still remain: (a) Quality discrepancies, where modalities offer differing quantities and qualities of information for the same concept. (b) Content discrepancies, where sample contributions within a modality vary significantly. To address these challenges, we propose a Discrepancy-Aware Attention Network (DAAN) for Enhanced Audio-Visual ZSL. Our approach introduces a Quality-Discrepancy Mitigation Attention (QDMA) unit to minimize redundant information in the high-quality modality and a Contrastive Sample-level Gradient Modulation (CSGM) block to adjust gradient magnitudes and balance content discrepancies. We quantify modality contributions by integrating optimization and convergence rate for more precise gradient modulation in CSGM. Experiments demonstrates DAAN achieves state-of-the-art performance on benchmark datasets, with ablation studies validating the effectiveness of individual modules.
- Abstract(参考訳): ZSL(Audio-visual Zero-Shot Learning)は、未確認のクラスを識別し、ビデオ分類タスクでうまく機能する能力において、大きな注目を集めている。
しかし、(G)ZSLにおけるモダル不均衡は、最適モダリティの過度な信頼を招き、目に見えないクラスに対する差別的能力を低下させる。
パラメータ勾配を変更することでこの問題に対処しようとする研究もあるが、まだ2つの課題が残っている。
(a)モダリティが同じ概念に対して異なる量の情報と品質を提供する品質の相違
b) 内容の相違は, モダリティ内におけるサンプルの寄与が著しく異なる。
これらの課題に対処するため,音声・映像ZSLのためのDAAN(Disdisrepancy-Aware Attention Network)を提案する。
提案手法では,QDMA(Quality-Discrepancy Mitigation Attention)ユニットを導入し,高品質なモダリティにおける冗長情報を最小化する。
CSGMにおけるより正確な勾配変調のための最適化と収束率を統合することで、モダリティの寄与を定量化する。
DAANは、ベンチマークデータセット上で最先端のパフォーマンスを実証し、個々のモジュールの有効性を検証するアブレーション研究を行った。
関連論文リスト
- Image-Feature Weak-to-Strong Consistency: An Enhanced Paradigm for Semi-Supervised Learning [5.0823084858349485]
画像レベルの弱強一貫性は半教師あり学習(SSL)の主要なパラダイムである
拡張空間を拡大するために,様々な強度と形状を持つ特徴レベルの摂動を導入する。
本報告では, 素質と課題を識別するための信頼度に基づく識別戦略を提案する。
論文 参考訳(メタデータ) (2024-08-08T13:19:25Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Augmented Contrastive Self-Supervised Learning for Audio Invariant
Representations [28.511060004984895]
ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。
提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。
論文 参考訳(メタデータ) (2021-12-21T02:50:53Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - Adaptive Adversarial Logits Pairing [65.51670200266913]
逆行訓練ソリューションであるAdversarial Logits Pairing (ALP)は、脆弱なものに比べて、高い貢献度を少なくする傾向にある。
これらの観測により,適応型対数対数対数対数対数対数法 (AALP) を設計し,ALPのトレーニングプロセスとトレーニングターゲットを変更する。
AALPは適応的な機能最適化モジュールと Guided Dropout から構成されており、より少ない高コントリビューション機能を体系的に追求する。
論文 参考訳(メタデータ) (2020-05-25T03:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。