Fugu-MT 論文翻訳(概要): Discrepancy-Aware Attention Network for Enhanced Audio-Visual Zero-Shot Learning

論文の概要: Discrepancy-Aware Attention Network for Enhanced Audio-Visual Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2412.11715v1
Date: Mon, 16 Dec 2024 12:35:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.36995
Title: Discrepancy-Aware Attention Network for Enhanced Audio-Visual Zero-Shot Learning
Title（参考訳）: オーディオ・ビジュアルゼロショット学習のための離散性認識型注意ネットワーク
Authors: RunLin Yu, Yipu Gong, Wenrui Li, Aiwen Sun, Mengren Zheng,
Abstract要約: オーディオ・ビジュアルZSLのためのDAAN(Disdisrepancy-Aware Attention Network)を提案する。提案手法では,QDMA(Quality-Discrepancy Attention)ユニットを導入し,高品質なモダリティにおいて冗長な情報を最小化する。実験では、ベンチマークデータセット上でDAANの最先端のパフォーマンスを実証する。
参考スコア（独自算出の注目度）: 1.8175282137722093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual Zero-Shot Learning (ZSL) has attracted significant attention for its ability to identify unseen classes and perform well in video classification tasks. However, modal imbalance in (G)ZSL leads to over-reliance on the optimal modality, reducing discriminative capabilities for unseen classes. Some studies have attempted to address this issue by modifying parameter gradients, but two challenges still remain: (a) Quality discrepancies, where modalities offer differing quantities and qualities of information for the same concept. (b) Content discrepancies, where sample contributions within a modality vary significantly. To address these challenges, we propose a Discrepancy-Aware Attention Network (DAAN) for Enhanced Audio-Visual ZSL. Our approach introduces a Quality-Discrepancy Mitigation Attention (QDMA) unit to minimize redundant information in the high-quality modality and a Contrastive Sample-level Gradient Modulation (CSGM) block to adjust gradient magnitudes and balance content discrepancies. We quantify modality contributions by integrating optimization and convergence rate for more precise gradient modulation in CSGM. Experiments demonstrates DAAN achieves state-of-the-art performance on benchmark datasets, with ablation studies validating the effectiveness of individual modules.
Abstract（参考訳）: ZSL(Audio-visual Zero-Shot Learning)は、未確認のクラスを識別し、ビデオ分類タスクでうまく機能する能力において、大きな注目を集めている。しかし、(G)ZSLにおけるモダル不均衡は、最適モダリティの過度な信頼を招き、目に見えないクラスに対する差別的能力を低下させる。パラメータ勾配を変更することでこの問題に対処しようとする研究もあるが、まだ2つの課題が残っている。 (a)モダリティが同じ概念に対して異なる量の情報と品質を提供する品質の相違 b) 内容の相違は, モダリティ内におけるサンプルの寄与が著しく異なる。これらの課題に対処するため,音声・映像ZSLのためのDAAN(Disdisrepancy-Aware Attention Network)を提案する。提案手法では,QDMA(Quality-Discrepancy Mitigation Attention)ユニットを導入し,高品質なモダリティにおける冗長情報を最小化する。 CSGMにおけるより正確な勾配変調のための最適化と収束率を統合することで、モダリティの寄与を定量化する。 DAANは、ベンチマークデータセット上で最先端のパフォーマンスを実証し、個々のモジュールの有効性を検証するアブレーション研究を行った。

関連論文リスト

Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文参考訳（メタデータ） (2025-03-28T07:23:07Z)
Adaptive Label Correction for Robust Medical Image Segmentation with Noisy Labels [21.12128358750749]
本稿では,雑音ラベルによる堅牢な医用画像分割のための平均教師に基づく適応ラベル補正フレームワークを提案する。適応ラベルリファインメント機構は、複数の外乱バージョン間での差異を動的にキャプチャし、重み付けし、ノイズラベルの品質を高める。また、サンプルレベルの不確実性に基づくラベル選択アルゴリズムを導入し、ネットワーク更新に高信頼なサンプルを優先順位付けする。
論文参考訳（メタデータ） (2025-03-15T18:03:01Z)
Transformer-Driven Active Transfer Learning for Cross-Hyperspectral Image Classification [3.087068801861429]
ハイパースペクトル画像(HSI)分類は、高スペクトル次元、重要な領域シフト、ラベル付きデータの可用性の制限による固有の課題を示す。本稿では,空間スペクトル変換器(SST)のバックボーン上に構築された,新しいアクティブトランスファー学習(ATL)フレームワークを提案する。このフレームワークは多段階移動学習と不確実性多様性駆動型能動学習機構を統合する。
論文参考訳（メタデータ） (2024-11-27T07:53:39Z)
Enhancing GANs with Contrastive Learning-Based Multistage Progressive Finetuning SNN and RL-Based External Optimization [0.0]
Gene Adversarial Networks (GAN) は画像合成の最前線にあり、特に病理学のような医学分野において、データの不足、患者のプライバシー、クラス不均衡といった課題に対処している。 GANでは、トレーニングの不安定性、モード崩壊、バイナリ分類からのフィードバック不足がパフォーマンスを損なう可能性がある。これらの課題は、複雑な特徴表現と空間的詳細のため、特に高解像度の病理像で顕著である。
論文参考訳（メタデータ） (2024-09-30T14:39:56Z)
Image-Feature Weak-to-Strong Consistency: An Enhanced Paradigm for Semi-Supervised Learning [5.0823084858349485]
画像レベルの弱強一貫性は半教師あり学習(SSL)の主要なパラダイムである拡張空間を拡大するために,様々な強度と形状を持つ特徴レベルの摂動を導入する。本報告では, 素質と課題を識別するための信頼度に基づく識別戦略を提案する。
論文参考訳（メタデータ） (2024-08-08T13:19:25Z)
Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-19T04:13:33Z)
Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-12-11T06:50:27Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文参考訳（メタデータ） (2023-06-26T06:45:16Z)
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。 2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文参考訳（メタデータ） (2022-07-24T23:50:52Z)
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文参考訳（メタデータ） (2022-02-02T23:54:26Z)
Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。 2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。 4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文参考訳（メタデータ） (2020-07-14T05:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。