論文の概要: Audio-Visual Glance Network for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2308.09322v1
- Date: Fri, 18 Aug 2023 05:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:29:32.104038
- Title: Audio-Visual Glance Network for Efficient Video Recognition
- Title(参考訳): 効率的な映像認識のための視聴覚ネットワーク
- Authors: Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Changick Kim
- Abstract要約: 本稿では,映像の時間的に重要な部分を効率的に処理するためのオーディオ・ビジュアル・ネットワーク(AVGN)を提案する。
我々は,各フレームのサリエンシスコアを推定するAV-TeST (Audio-Visual Temporal Saliency Transformer) を用いた。
AVGNの堅牢性と有効性を高めるため,様々なトレーニング手法とマルチモーダル特徴融合を取り入れた。
- 参考スコア(独自算出の注目度): 17.95844876568496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has made significant strides in video understanding tasks, but
the computation required to classify lengthy and massive videos using
clip-level video classifiers remains impractical and prohibitively expensive.
To address this issue, we propose Audio-Visual Glance Network (AVGN), which
leverages the commonly available audio and visual modalities to efficiently
process the spatio-temporally important parts of a video. AVGN firstly divides
the video into snippets of image-audio clip pair and employs lightweight
unimodal encoders to extract global visual features and audio features. To
identify the important temporal segments, we use an Audio-Visual Temporal
Saliency Transformer (AV-TeST) that estimates the saliency scores of each
frame. To further increase efficiency in the spatial dimension, AVGN processes
only the important patches instead of the whole images. We use an
Audio-Enhanced Spatial Patch Attention (AESPA) module to produce a set of
enhanced coarse visual features, which are fed to a policy network that
produces the coordinates of the important patches. This approach enables us to
focus only on the most important spatio-temporally parts of the video, leading
to more efficient video recognition. Moreover, we incorporate various training
techniques and multi-modal feature fusion to enhance the robustness and
effectiveness of our AVGN. By combining these strategies, our AVGN sets new
state-of-the-art performance in multiple video recognition benchmarks while
achieving faster processing speed.
- Abstract(参考訳): 深層学習は、ビデオ理解タスクにおいて大きな進歩を遂げてきたが、クリップレベルのビデオ分類器を使って長大なビデオを分類するのに要する計算は、実用的でなく、違法に高価である。
この問題に対処するため,ビデオの時空間的に重要な部分の処理を効率的に行うために,一般に利用可能なオーディオと視覚のモダリティを活用するAudio-Visual Glance Network (AVGN)を提案する。
AVGNはまず、ビデオを画像とオーディオのクリップペアのスニペットに分割し、軽量なアンモダルエンコーダを使用してグローバルな視覚的特徴とオーディオ特徴を抽出する。
重要な時間セグメントを特定するために,各フレームの相性スコアを推定するAV-TeST(Audio-Visual Temporal Saliency Transformer)を用いる。
空間次元の効率をさらに高めるために、AVGNは画像全体ではなく重要なパッチのみを処理する。
我々はAESPA(Audio-Enhanced Spatial Patch Attention)モジュールを用いて、重要なパッチの座標を生成するポリシーネットワークに供給される粗い視覚的特徴の集合を生成する。
このアプローチにより、ビデオの最も重要な時空間部分のみに集中することができ、より効率的なビデオ認識を実現することができる。
さらに,AVGNの堅牢性と有効性を高めるため,様々なトレーニング手法とマルチモーダル特徴融合を取り入れた。
これらの戦略を組み合わせることで、avgnは高速処理を実現しながら、複数のビデオ認識ベンチマークで最先端のパフォーマンスを新たに設定する。
関連論文リスト
- Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.414663568089292]
音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-04T01:25:20Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。