論文の概要: AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual
Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2309.08738v2
- Date: Wed, 20 Dec 2023 22:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:20:30.249550
- Title: AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual
Masked Autoencoder
- Title(参考訳): AV-MaskEnhancer:AV-Visual Masked Autoencoderによるビデオ表現の強化
- Authors: Xingjian Diao, Ming Cheng, and Shitong Cheng
- Abstract要約: 視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。
本手法は,モーダリティコンテンツにおける音声とビデオの特徴の相補的な性質を実証することによる課題に対処する。
- 参考スコア(独自算出の注目度): 3.8735222804007394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning high-quality video representation has shown significant applications
in computer vision and remains challenging. Previous work based on mask
autoencoders such as ImageMAE and VideoMAE has proven the effectiveness of
learning representations in images and videos through reconstruction strategy
in the visual modality. However, these models exhibit inherent limitations,
particularly in scenarios where extracting features solely from the visual
modality proves challenging, such as when dealing with low-resolution and
blurry original videos. Based on this, we propose AV-MaskEnhancer for learning
high-quality video representation by combining visual and audio information.
Our approach addresses the challenge by demonstrating the complementary nature
of audio and video features in cross-modality content. Moreover, our result of
the video classification task on the UCF101 dataset outperforms the existing
work and reaches the state-of-the-art, with a top-1 accuracy of 98.8% and a
top-5 accuracy of 99.9%.
- Abstract(参考訳): 高品質なビデオ表現の学習はコンピュータビジョンにおいて重要な応用例であり、依然として挑戦的である。
imagemaeやvideomaeのようなマスク自動エンコーダに基づく以前の研究は、視覚モダリティにおける再構成戦略を通じて画像やビデオの表現を学習することの有効性を証明している。
しかし、これらのモデルには固有の制限があり、特に低解像度でぼやけたオリジナルビデオを扱う場合など、視覚的モダリティのみから特徴を抽出する場合には困難である。
そこで我々は,視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。
本手法は,モーダリティコンテンツにおける音声と映像の相補的な特徴を実証することによる課題に対処する。
さらに,UCF101データセット上の映像分類タスクの結果は,既存の作業よりも優れ,トップ1の精度98.8%,トップ5の精度99.9%に到達した。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders [11.727612242016871]
ViC-MAEはMasked AutoEncoders(MAE)とコントラスト学習を組み合わせたモデルである。
ViC-MAEで学習した視覚表現は、映像分類と画像分類の両方によく当てはまる。
論文 参考訳(メタデータ) (2023-03-21T16:33:40Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - MAiVAR: Multimodal Audio-Image and Video Action Recognizer [18.72489078928417]
我々は,CNNの表現プロセスが,タスクに画像に基づく行動表現を組み込むことで,マルチモーダルな行動認識にも活用できるかどうかを検討する。
本稿では,CNNを用いた映像融合モデルを提案する。
論文 参考訳(メタデータ) (2022-09-11T03:52:27Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。