論文の概要: Attend-Fusion: Efficient Audio-Visual Fusion for Video Classification
- arxiv url: http://arxiv.org/abs/2408.14441v1
- Date: Mon, 26 Aug 2024 17:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:12:07.827252
- Title: Attend-Fusion: Efficient Audio-Visual Fusion for Video Classification
- Title(参考訳): Attend-Fusion:ビデオ分類のための効率的なオーディオ・ビジュアル・フュージョン
- Authors: Mahrukh Awan, Asmar Nadeem, Muhammad Junaid Awan, Armin Mustafa, Syed Sameed Husain,
- Abstract要約: 本研究では,映像データ中の複雑な音声・視覚関係をキャプチャするAV融合手法であるAttend-Fusionを提案する。
Attend-Fusion は 72M パラメータしか持たない F1 スコアが 75.64% であることを示し、これはより大きなベースラインモデルの性能に匹敵するものである。
本研究は,映像分類のための音声情報と視覚情報を効果的に結合し,モデルサイズを大幅に縮小した競合性能を実現することを実証する。
- 参考スコア(独自算出の注目度): 7.12098233498445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploiting both audio and visual modalities for video classification is a challenging task, as the existing methods require large model architectures, leading to high computational complexity and resource requirements. Smaller architectures, on the other hand, struggle to achieve optimal performance. In this paper, we propose Attend-Fusion, an audio-visual (AV) fusion approach that introduces a compact model architecture specifically designed to capture intricate audio-visual relationships in video data. Through extensive experiments on the challenging YouTube-8M dataset, we demonstrate that Attend-Fusion achieves an F1 score of 75.64\% with only 72M parameters, which is comparable to the performance of larger baseline models such as Fully-Connected Late Fusion (75.96\% F1 score, 341M parameters). Attend-Fusion achieves similar performance to the larger baseline model while reducing the model size by nearly 80\%, highlighting its efficiency in terms of model complexity. Our work demonstrates that the Attend-Fusion model effectively combines audio and visual information for video classification, achieving competitive performance with significantly reduced model size. This approach opens new possibilities for deploying high-performance video understanding systems in resource-constrained environments across various applications.
- Abstract(参考訳): 既存の手法では大規模なモデルアーキテクチャが必要であり、高い計算複雑性とリソース要求をもたらすため、ビデオ分類のためのオーディオと視覚の両方のモダリティの爆発は難しい課題である。
一方、より小さなアーキテクチャは、最適なパフォーマンスを達成するのに苦労する。
本稿では,映像データ中の複雑な音声と視覚の関係を捉えるための,コンパクトなモデルアーキテクチャを導入する,オーディオ・視覚融合(AV)融合アプローチであるAttend-Fusionを提案する。
挑戦的なYouTube-8Mデータセットに関する広範な実験を通じて、Attend-Fusionは72Mパラメータだけで75.64\%のF1スコアを達成し、Fully-Connected Late Fusion(75.96\% F1スコア、341Mパラメータ)のような大規模なベースラインモデルのパフォーマンスと同等であることを示した。
Attend-Fusionは、より大きなベースラインモデルと同じようなパフォーマンスを実現し、モデルサイズを80%近く削減し、モデルの複雑さの観点からその効率性を強調します。
本研究は,映像分類のための音声情報と視覚情報を効果的に結合し,モデルサイズを大幅に縮小した競合性能を実現することを実証する。
このアプローチは、様々なアプリケーションにわたるリソース制約のある環境において、高性能なビデオ理解システムをデプロイする新たな可能性を開く。
関連論文リスト
- Efficient Audio-Visual Fusion for Video Classification [6.106447284305316]
本稿では,映像分類タスクにおける音声・視覚融合の新しい,効率的なアプローチであるAttend-Fusionを提案する。
提案手法は,コンパクトなモデルアーキテクチャを維持しながら,オーディオと視覚の両方のモダリティを活用するという課題に対処する。
論文 参考訳(メタデータ) (2024-11-08T14:47:28Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。