論文の概要: ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency
Prediction
- arxiv url: http://arxiv.org/abs/2012.06170v2
- Date: Thu, 18 Mar 2021 06:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:00:47.056572
- Title: ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency
Prediction
- Title(参考訳): ViNet: オーディオ・ビジュアル・サリエンシ予測のための視覚的モダリティの限界を推し進める
- Authors: Samyak Jain, Pradeep Yarlagadda, Shreyank Jyoti, Shyamgopal Karthik,
Ramanathan Subramanian and Vineet Gandhi
- Abstract要約: ViNetは完全な畳み込みエンコーダデコーダアーキテクチャである。
ViNetはオーディオを入力として使用せず、最先端のオーディオビジュアルサリエンシー予測モデルよりも優れています。
- 参考スコア(独自算出の注目度): 7.632076006056503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the ViNet architecture for audio-visual saliency prediction. ViNet
is a fully convolutional encoder-decoder architecture. The encoder uses visual
features from a network trained for action recognition, and the decoder infers
a saliency map via trilinear interpolation and 3D convolutions, combining
features from multiple hierarchies. The overall architecture of ViNet is
conceptually simple; it is causal and runs in real-time (60 fps). ViNet does
not use audio as input and still outperforms the state-of-the-art audio-visual
saliency prediction models on nine different datasets (three visual-only and
six audio-visual datasets). ViNet also surpasses human performance on the CC,
SIM and AUC metrics for the AVE dataset, and to our knowledge, it is the first
network to do so. We also explore a variation of ViNet architecture by
augmenting audio features into the decoder. To our surprise, upon sufficient
training, the network becomes agnostic to the input audio and provides the same
output irrespective of the input. Interestingly, we also observe similar
behaviour in the previous state-of-the-art models \cite{tsiami2020stavis} for
audio-visual saliency prediction. Our findings contrast with previous works on
deep learning-based audio-visual saliency prediction, suggesting a clear avenue
for future explorations incorporating audio in a more effective manner. The
code and pre-trained models are available at
https://github.com/samyak0210/ViNet.
- Abstract(参考訳): 本稿では,視覚的サリエンシ予測のためのViNetアーキテクチャを提案する。
ViNetは完全な畳み込みエンコーダデコーダアーキテクチャである。
エンコーダは、アクション認識のために訓練されたネットワークからの視覚的特徴を使用し、デコーダは、トリ線形補間と3D畳み込みを通じて、サリエンシマップを推論し、複数の階層の特徴を組み合わせる。
ViNetの全体的なアーキテクチャは概念的にはシンプルで、因果的であり、リアルタイム(60fps)で動作する。
ViNetは入力としてオーディオを使用しておらず、9つの異なるデータセット(3つの視覚のみと6つのオーディオ視覚データセット)で最先端のオーディオ視覚唾液率予測モデルより優れている。
ViNetはまた、AVEデータセットのCC、SIM、AUCメトリクスの人的パフォーマンスを上回り、私たちの知る限り、これが最初のネットワークである。
また、オーディオ機能をデコーダに拡張することで、ViNetアーキテクチャのバリエーションについても検討する。
驚いたことに、十分なトレーニングを行うと、ネットワークは入力オーディオに非依存になり、入力に関係なく同じ出力を提供する。
興味深いことに、私たちはまた、前回の最先端モデルである \cite{tsiami2020stavis} で同様の振る舞いを視認できる。
これまでの深層学習に基づく視聴覚塩分予測とは対照的な結果であり,より効果的に音声を組み込む今後の探究への道筋が示唆された。
コードと事前トレーニングされたモデルは、https://github.com/samyak0210/vinetで入手できる。
関連論文リスト
- Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z) - CatNet: Class Incremental 3D ConvNets for Lifelong Egocentric Gesture
Recognition [24.706843543488763]
エゴセントリックなジェスチャーは、人間がVR/ARヘルメットやメガネのようなウェアラブルデバイスと対話するための、最も自然なコミュニケーション形態である。
従来のディープラーニングメソッドでは、すべての前のクラスサンプルをシステムに格納し、スクラッチからモデルを再トレーニングする必要があります。
本研究では、生涯にわたる3D畳み込みフレームワーク-c(C)la(a)s increment(t)al net(Net)work(CatNet)を実証する。
本稿では,RGBと奥行きモードを2つの異なるネットワークをトレーニングするための2ストリームのCatNetを提案する。
論文 参考訳(メタデータ) (2020-04-20T11:36:02Z) - STAViS: Spatio-Temporal AudioVisual Saliency Network [45.04894808904767]
STAViSは視覚的サリエンシと聴覚機能を組み合わせたネットワークである。
音源を適切に局所化し、2つの塩分を融合させて最終的な塩分マップを得る。
提案手法を8種類の最先端ビジュアル・サリエンシ・モデルと比較した。
論文 参考訳(メタデータ) (2020-01-09T15:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。