論文の概要: DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating Fusion
- arxiv url: http://arxiv.org/abs/2504.21366v1
- Date: Wed, 30 Apr 2025 06:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:08:42.257389
- Title: DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating Fusion
- Title(参考訳): DGFNet:動的ゲーティング融合に基づくエンド・ツー・エンドオーディオ・ビジュアル音源分離
- Authors: Yinfeng Yu, Shiyu Sun,
- Abstract要約: 現在のオーディオ・ビジュアル・ソース分離法は主に2つの設計戦略を採用する。
最初の戦略は、エンコーダのボトルネック層にオーディオと視覚的特徴を融合させ、続いてデコーダを通じて融合した特徴を処理することである。
第2の戦略は直接融合を避け、代わりにオーディオと視覚的特徴の相互作用を扱うためにデコーダに依存している。
本稿では,モダリティ融合度を動的に調整するゲーティング機構に基づく動的融合法を提案する。
- 参考スコア(独自算出の注目度): 1.292190360867547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current Audio-Visual Source Separation methods primarily adopt two design strategies. The first strategy involves fusing audio and visual features at the bottleneck layer of the encoder, followed by processing the fused features through the decoder. However, when there is a significant disparity between the two modalities, this approach may lead to the loss of critical information. The second strategy avoids direct fusion and instead relies on the decoder to handle the interaction between audio and visual features. Nonetheless, if the encoder fails to integrate information across modalities adequately, the decoder may be unable to effectively capture the complex relationships between them. To address these issues, this paper proposes a dynamic fusion method based on a gating mechanism that dynamically adjusts the modality fusion degree. This approach mitigates the limitations of solely relying on the decoder and facilitates efficient collaboration between audio and visual features. Additionally, an audio attention module is introduced to enhance the expressive capacity of audio features, thereby further improving model performance. Experimental results demonstrate that our method achieves significant performance improvements on two benchmark datasets, validating its effectiveness and advantages in Audio-Visual Source Separation tasks.
- Abstract(参考訳): 現在のオーディオ・ビジュアル・ソース分離法は主に2つの設計戦略を採用する。
最初の戦略は、エンコーダのボトルネック層にオーディオと視覚的特徴を融合させ、続いてデコーダを通じて融合した特徴を処理することである。
しかし、2つのモードの間に大きな相違がある場合、このアプローチは臨界情報の喪失につながる可能性がある。
第2の戦略は直接融合を避け、代わりにオーディオと視覚的特徴の相互作用を扱うためにデコーダに依存している。
それでも、もしエンコーダが適切なモダリティ間の情報統合に失敗した場合、デコーダはそれらの間の複雑な関係を効果的に捉えることができないかもしれない。
これらの問題に対処するために,モーダリティ融合度を動的に調整するゲーティング機構に基づく動的融合法を提案する。
このアプローチは、デコーダのみに依存する制限を緩和し、オーディオと視覚的特徴の効率的な協調を容易にする。
さらに、音声特徴の表現能力を高めるため、音響アテンションモジュールを導入し、モデル性能をさらに向上する。
実験結果から,提案手法は2つのベンチマークデータセットに対して大幅な性能向上を実現し,オーディオ・ビジュアル・ソース分離タスクの有効性と利点を検証した。
関連論文リスト
- DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap [38.5017989456818]
DiffGAPは、軽量な生成モジュールをコントラスト空間に組み込んだ新しいアプローチである。
VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-15T13:24:09Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Automated Audio Captioning via Fusion of Low- and High- Dimensional
Features [48.62190893209622]
既存のAAC法では、PANNの高次元表現のみをデコーダの入力として用いている。
新たなエンコーダデコーダフレームワークであるLow- and High-dimensional Feature Fusion (LHDFF)モデルが提案されている。
LHDFFは、他の既存のモデルと比較して、ClothoとAudioCapsデータセット上で最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-10T22:39:41Z) - Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based
Robust Speech Recognition [27.742673824969238]
提案手法は, クリーンで目立たない騒音条件下での認識率を平均0.55%, 4.51%, 4.61%向上させることができる。
LRS3-TEDデータセットの実験により、提案手法は平均0.55%、4.51%、4.61%の認識率を向上できることが示された。
論文 参考訳(メタデータ) (2020-08-06T14:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。