論文の概要: Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction
- arxiv url: http://arxiv.org/abs/2208.05220v1
- Date: Wed, 10 Aug 2022 08:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:02:12.622118
- Title: Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction
- Title(参考訳): 音声と視覚のサリエンシー予測のためのデュアルドメイン・アドバーサル・ラーニング
- Authors: Yingzi Fan, Longfei Han, Yue Zhang, Lechao Cheng, Chen Xia, Di Hu
- Abstract要約: ディープ畳み込みニューラルネットワーク(CNN)は、オーディオ-視覚的サリエンシ予測タスクに対処する上で、強力な能力を示す。
撮影シーンや天気などの様々な要因により、ソーストレーニングデータとターゲットテストデータの間には、適度な分布差がしばしば存在する。
本稿では、ソースデータとターゲットデータとのドメイン差を緩和する2つのドメイン対逆学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.691475370621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both visual and auditory information are valuable to determine the salient
regions in videos. Deep convolution neural networks (CNN) showcase strong
capacity in coping with the audio-visual saliency prediction task. Due to
various factors such as shooting scenes and weather, there often exists
moderate distribution discrepancy between source training data and target
testing data. The domain discrepancy induces to performance degradation on
target testing data for CNN models. This paper makes an early attempt to tackle
the unsupervised domain adaptation problem for audio-visual saliency
prediction. We propose a dual domain-adversarial learning algorithm to mitigate
the domain discrepancy between source and target data. First, a specific domain
discrimination branch is built up for aligning the auditory feature
distributions. Then, those auditory features are fused into the visual features
through a cross-modal self-attention module. The other domain discrimination
branch is devised to reduce the domain discrepancy of visual features and
audio-visual correlations implied by the fused audio-visual features.
Experiments on public benchmarks demonstrate that our method can relieve the
performance degradation caused by domain discrepancy.
- Abstract(参考訳): 視覚情報と聴覚情報の両方がビデオ内の健全な領域を決定するのに有用である。
ディープ畳み込みニューラルネットワーク(CNN)は、オーディオ-視覚的サリエンシ予測タスクに対処する能力を示す。
撮影シーンや天気などの様々な要因により、ソーストレーニングデータとターゲットテストデータの間には、適度な分布差がしばしば存在する。
ドメインの不一致は、CNNモデルのターゲットテストデータの性能劣化を引き起こす。
本稿では,教師なし領域適応問題に早期に取り組み,聴覚・視覚の正当性予測を行う。
本稿では、ソースデータとターゲットデータとのドメイン差を緩和する2つのドメイン対逆学習アルゴリズムを提案する。
まず、聴覚特徴分布を調整するために、特定のドメイン識別ブランチが構築される。
そして、これらの聴覚機能は、モーダルな自己認識モジュールを通じて視覚的特徴に融合する。
他の領域識別部は、融合した音声視覚特徴による視覚特徴と音声視覚相関の領域差を低減するために考案されている。
公開ベンチマーク実験により,提案手法はドメインの不一致による性能低下を緩和できることを示した。
関連論文リスト
- Audio-based Kinship Verification Using Age Domain Conversion [39.4890403254022]
このタスクの主な課題は、異なる個人からのサンプル間の年齢差から生じる。
我々は、最適化されたCycleGAN-VC3ネットワークを利用して、年齢変換を行い、ドメイン内オーディオを生成する。
生成されたオーディオデータセットを使用して、さまざまな機能を抽出し、それをメトリック学習アーキテクチャに入力し、親族性を検証する。
論文 参考訳(メタデータ) (2024-10-14T22:08:57Z) - From Denoising Training to Test-Time Adaptation: Enhancing Domain
Generalization for Medical Image Segmentation [8.36463803956324]
本稿では,補助的な復号化デコーダを基本U-Netアーキテクチャに組み込んだ新しい手法であるDenoising Y-Netを提案する。
補助デコーダは、ドメインの一般化を促進するドメイン不変表現を増強し、デノナイジングトレーニングを実行することを目的としている。
そこで本研究では,Denoising Test Time Adaptation (DeTTA)を提案する。さらに, (i) モデルを対象領域にサンプル的に適応させ, (ii) ノイズ破損した入力に適応させる。
論文 参考訳(メタデータ) (2023-10-31T08:39:15Z) - Incorporating Pre-training Data Matters in Unsupervised Domain
Adaptation [13.509286043322442]
非教師付きドメイン適応(UDA)とソースフリーなUDA(SFUDA)メソッドは、ソースとターゲットの2つのドメインに関わる問題を定式化する。
我々は、ImageNet、ソース、ターゲットドメイン間の相関について検討する。
本稿では,訓練前のデータセットのセマンティック構造を微調整時に保持する新しいフレームワークTriDAを提案する。
論文 参考訳(メタデータ) (2023-08-06T12:23:40Z) - Variational Counterfactual Prediction under Runtime Domain Corruption [50.89405221574912]
ドメインシフトとアクセス不能変数の同時発生 実行時ドメインの破損は、訓練済みの反事実予測器の一般化を著しく損なう。
我々は,新たな2段階の対向領域適応方式を用いて,VEGANという,対向的に統一された変分因果効果モデルを構築した。
VEGANは、ランタイムドメインの破損の有無で、個々のレベルの処理効果の推定において、他の最先端のベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2023-06-23T02:54:34Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - DecoupleNet: Decoupled Network for Domain Adaptive Semantic Segmentation [78.30720731968135]
セマンティックセグメンテーションにおける教師なしドメイン適応は、高価なピクセル単位のアノテーションへの依存を軽減するために提起されている。
我々は、ソースドメインのオーバーフィットを軽減し、最終的なモデルをセグメント化タスクに集中できるようにするDecoupleNetを提案する。
我々はまた、自己識別(SD)を推進し、擬似ラベルでより識別可能なターゲットドメイン特徴を学習するための補助分類器を導入した。
論文 参考訳(メタデータ) (2022-07-20T15:47:34Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning [150.42959029611657]
ドメイン対応ビジュアルバイアス除去(DVBE)ネットワークは2つの相補的な視覚表現を構成する。
目に見えない画像に対しては、最適なセマンティック・視覚アライメントアーキテクチャを自動で検索する。
論文 参考訳(メタデータ) (2020-03-30T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。