論文の概要: Weakly Supervised Visual-Auditory Saliency Detection with
Multigranularity Perception
- arxiv url: http://arxiv.org/abs/2112.13697v1
- Date: Mon, 27 Dec 2021 14:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 20:07:49.661694
- Title: Weakly Supervised Visual-Auditory Saliency Detection with
Multigranularity Perception
- Title(参考訳): マルチグラニュラ性知覚を用いた弱教師付き視聴覚サリエンシー検出
- Authors: Guotao Wang, Chenglizhao Chen, Dengping Fan, Aimin Hao, and Hong Qin
- Abstract要約: 本稿では,視覚・音響モデルトレーニングのための大規模トレーニングセットの需要を軽減するために,弱教師付き手法による新しいアプローチを提案する。
ビデオカテゴリタグのみを用いて、選択型クラスアクティベーションマッピング(SCAM)とそのアップグレード(SCAM+)を提案する。
空間的・時間的環境においては、前者は最も識別性の高い領域を選択するための粗大な戦略に従っており、これらの領域は通常、実際の人間の目と高い整合性を示すことができる。
- 参考スコア(独自算出の注目度): 46.84865384147999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the rapid advances in deep learning techniques and the wide
availability of large-scale training sets, the performance of video saliency
detection models has been improving steadily and significantly. However, deep
learning-based visualaudio fixation prediction is still in its infancy. At
present, only a few visual-audio sequences have been furnished, with real
fixations being recorded in real visual-audio environments. Hence, it would be
neither efficient nor necessary to recollect real fixations under the same
visual-audio circumstances. To address this problem, this paper promotes a
novel approach in a weakly supervised manner to alleviate the demand of
large-scale training sets for visual-audio model training. By using only the
video category tags, we propose the selective class activation mapping (SCAM)
and its upgrade (SCAM+). In the spatial-temporal-audio circumstance, the former
follows a coarse-to-fine strategy to select the most discriminative regions,
and these regions are usually capable of exhibiting high consistency with the
real human-eye fixations. The latter equips the SCAM with an additional
multi-granularity perception mechanism, making the whole process more
consistent with that of the real human visual system. Moreover, we distill
knowledge from these regions to obtain complete new spatial-temporal-audio
(STA) fixation prediction (FP) networks, enabling broad applications in cases
where video tags are not available. Without resorting to any real human-eye
fixation, the performances of these STA FP networks are comparable to those of
fully supervised networks. The code and results are publicly available at
https://github.com/guotaowang/STANet.
- Abstract(参考訳): ディープラーニング技術の急激な進歩と大規模トレーニングセットの広範な利用により,ビデオサリエンシ検出モデルの性能は着実に向上している。
しかし、ディープラーニングベースのvisualaudioフィクスレーション予測はまだ初期段階にある。
現在、実際の視覚音響環境において実際の固定が記録されているのは、少数の視覚音響シーケンスのみである。
したがって、同じ視覚的な状況下で実際の固定を再現することは効率的でも必要でもない。
そこで本研究では,視覚・音響モデルトレーニングのための大規模トレーニングセットの需要を軽減するために,弱教師付きアプローチを提案する。
ビデオカテゴリタグのみを用いて、選択型クラスアクティベーションマッピング(SCAM)とそのアップグレード(SCAM+)を提案する。
空間的-時間的-聴覚的状況において、前者は最も識別的な領域を選択するための粗い対極戦略に従っており、これらの領域は通常、実際の人間の眼の固定と高い一貫性を示すことができる。
後者はSCAMに追加の多粒性知覚機構を備えており、実際の人間の視覚システムとプロセス全体がより整合している。
さらに,これらの領域の知識を蒸留して空間-時間-音声(sta)固定化予測(fp)ネットワークを新たに構築し,ビデオタグが利用できない場合に幅広い応用が可能となった。
実際の人目固定に頼らず、これらのSTA FPネットワークの性能は、完全に監督されたネットワークと同等である。
コードと結果はhttps://github.com/guotaowang/STANetで公開されている。
関連論文リスト
- CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Leveraging Visual Supervision for Array-based Active Speaker Detection
and Localization [3.836171323110284]
簡単な音声畳み込みリカレントニューラルネットワークにより,水平型アクティブ話者検出と局所化を同時に行うことができることを示す。
本稿では,生徒の学習アプローチを取り入れた,自己指導型学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T16:53:04Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。