論文の概要: DiffSal: Joint Audio and Video Learning for Diffusion Saliency
Prediction
- arxiv url: http://arxiv.org/abs/2403.01226v1
- Date: Sat, 2 Mar 2024 14:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:39:07.042037
- Title: DiffSal: Joint Audio and Video Learning for Diffusion Saliency
Prediction
- Title(参考訳): DiffSal:拡散残差予測のための共同音声とビデオ学習
- Authors: Junwen Xiong, Peng Zhang, Tao You, Chuanyue Li, Wei Huang, Yufei Zha
- Abstract要約: 余分なネットワークSaliency-UNetは、ノイズマップから地道なSaliency Mapの進行にマルチモーダルな注意を向けるように設計されている。
実験により、提案されたDiffSalは、難易度の高い6つのオーディオ視覚ベンチマークで優れたパフォーマンスを達成できることが示された。
- 参考スコア(独自算出の注目度): 9.063895463649413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual saliency prediction can draw support from diverse modality
complements, but further performance enhancement is still challenged by
customized architectures as well as task-specific loss functions. In recent
studies, denoising diffusion models have shown more promising in unifying task
frameworks owing to their inherent ability of generalization. Following this
motivation, a novel Diffusion architecture for generalized audio-visual
Saliency prediction (DiffSal) is proposed in this work, which formulates the
prediction problem as a conditional generative task of the saliency map by
utilizing input audio and video as the conditions. Based on the spatio-temporal
audio-visual features, an extra network Saliency-UNet is designed to perform
multi-modal attention modulation for progressive refinement of the ground-truth
saliency map from the noisy map. Extensive experiments demonstrate that the
proposed DiffSal can achieve excellent performance across six challenging
audio-visual benchmarks, with an average relative improvement of 6.3\% over the
previous state-of-the-art results by six metrics.
- Abstract(参考訳): オーディオ・ビジュアル・サリエンシ予測は様々なモダリティ補完からサポートを受けることができるが、カスタマイズされたアーキテクチャやタスク固有の損失関数によってさらなるパフォーマンス向上が課題となっている。
近年の研究では、一般化の本質的な能力により、拡散モデルがタスクフレームワークを統一する上でより有望であることが示されている。
このモチベーションに続いて、入力音声と映像を条件として、塩分マップの条件生成タスクとして予測問題を定式化する、一般化された視覚的塩分予測(DiffSal)のための新しい拡散アーキテクチャを提案する。
時空間音声-視覚的特徴に基づいて、高次ネットワークSaliency-UNetは、ノイズマップからの地中忠実度マップのプログレッシブ改善のためのマルチモーダルアテンション変調を行うように設計されている。
広範な実験により、提案手法は6つの難解なオーディオ・ビジュアルベンチマークにおいて優れた性能を達成できることが示され、従来の6つの指標による結果よりも平均して6.3\%向上した。
関連論文リスト
- AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Induction Network: Audio-Visual Modality Gap-Bridging for
Self-Supervised Sound Source Localization [44.911681670756124]
本研究では,モダリティギャップをより効果的に橋渡しするインダクションネットワークを提案する。
視覚的・音声的モダリティの勾配を分離することにより、音源の識別的視覚的表現を学習することができる。
SoundNet-FlickrおよびVGG-Sound Sourceデータセットで実施された実験は、優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-09T07:55:12Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。