論文の概要: CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective
- arxiv url: http://arxiv.org/abs/2303.06357v1
- Date: Sat, 11 Mar 2023 09:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:28:03.321425
- Title: CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective
- Title(参考訳): casp-net:音声・視覚コンシスタンス知覚視点によるビデオサリエンシー予測の再検討
- Authors: Junwen Xiong, Ganglai Wang, Peng Zhang, Wei Huang, Yufei Zha, Guangtao
Zhai
- Abstract要約: Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
- 参考スコア(独自算出の注目度): 30.995357472421404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating the audio stream enables Video Saliency Prediction (VSP) to
imitate the selective attention mechanism of human brain. By focusing on the
benefits of joint auditory and visual information, most VSP methods are capable
of exploiting semantic correlation between vision and audio modalities but
ignoring the negative effects due to the temporal inconsistency of audio-visual
intrinsics. Inspired by the biological inconsistency-correction within
multi-sensory information, in this study, a consistency-aware audio-visual
saliency prediction network (CASP-Net) is proposed, which takes a comprehensive
consideration of the audio-visual semantic interaction and consistent
perception. In addition a two-stream encoder for elegant association between
video frames and corresponding sound source, a novel consistency-aware
predictive coding is also designed to improve the consistency within audio and
visual representations iteratively. To further aggregate the multi-scale
audio-visual information, a saliency decoder is introduced for the final
saliency map generation. Substantial experiments demonstrate that the proposed
CASP-Net outperforms the other state-of-the-art methods on six challenging
audio-visual eye-tracking datasets. For a demo of our system please see our
project webpage.
- Abstract(参考訳): オーディオストリームを組み込むことで、VSP(Video Saliency Prediction)は人間の脳の選択的注意機構を模倣することができる。
共同聴覚と視覚情報の利点に焦点を合わせることで、ほとんどのVSP手法は視覚と音響のモダリティのセマンティックな相関を活用できるが、音声と視覚の内在性の時間的矛盾による負の効果を無視することができる。
本研究は,多感覚情報における生体的不整合補正に触発され,音声と視覚のセマンティックな相互作用と一貫した知覚を包括的に考慮した,一貫性に配慮した音声・視覚の相性予測ネットワーク(CASP-Net)を提案する。
ビデオフレームと対応する音源とのエレガントな関連付けのための2ストリームエンコーダに加えて、オーディオと視覚表現の一貫性を反復的に向上させる新たな一貫性対応予測符号化も設計されている。
マルチスケールの音声視覚情報をさらに集約するために、最終的なサリエンシマップ生成のために、サリエンシデコーダを導入する。
実体実験により、提案されたCASP-Netは、6つの挑戦的な視覚的視線追跡データセットにおいて、他の最先端の手法よりも優れていることが示された。
システムのデモについては、プロジェクトのWebページを参照してください。
関連論文リスト
- Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits [22.558134249701794]
音声・視覚音声分離のための新しい皮質・視床・皮質神経回路(CTCNet)を提案する。
CTCNetは階層的な聴覚と視覚の表現をボトムアップで学習する。
3つの音声分離ベンチマークデータセットの実験では、CTCNetはパラメータがかなり少ない既存のAVSSメソッドよりも著しく優れていた。
論文 参考訳(メタデータ) (2022-12-21T03:28:30Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。