Fugu-MT 論文翻訳(概要): AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder

論文の概要: AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder

arxiv url: http://arxiv.org/abs/2309.08738v1
Date: Fri, 15 Sep 2023 19:56:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 19:44:59.039561
Title: AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder
Title（参考訳）: AV-MaskEnhancer:AV-Visual Masked Autoencoderによるビデオ表現の強化
Authors: Xingjian Diao, Ming Cheng, and Shitong Cheng
Abstract要約: 視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。本手法は,モーダリティコンテンツにおける音声とビデオの特徴の相補的な性質を実証することによる課題に対処する。
参考スコア（独自算出の注目度）: 3.8735222804007394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning high-quality video representation has shown significant applications in computer vision and remains challenging. Previous work based on mask autoencoders such as ImageMAE and VideoMAE has proven the effectiveness of learning representations in images and videos through reconstruction strategy in the visual modality. However, these models exhibit inherent limitations, particularly in scenarios where extracting features solely from the visual modality proves challenging, such as when dealing with low-resolution and blurry original videos. Based on this, we propose AV-MaskEnhancer for learning high-quality video representation by combining visual and audio information. Our approach addresses the challenge by demonstrating the complementary nature of audio and video features in cross-modality content. Moreover, our result of the video classification task on the UCF101 dataset outperforms the existing work and reaches the state-of-the-art, with a top-1 accuracy of 98.8% and a top-5 accuracy of 99.9%.
Abstract（参考訳）: 高品質なビデオ表現の学習はコンピュータビジョンにおいて重要な応用例であり、依然として挑戦的である。 imagemaeやvideomaeのようなマスク自動エンコーダに基づく以前の研究は、視覚モダリティにおける再構成戦略を通じて画像やビデオの表現を学習することの有効性を証明している。しかし、これらのモデルには固有の制限があり、特に低解像度でぼやけたオリジナルビデオを扱う場合など、視覚的モダリティのみから特徴を抽出する場合には困難である。そこで我々は,視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。本手法は,モーダリティコンテンツにおける音声と映像の相補的な特徴を実証することによる課題に対処する。さらに,UCF101データセット上の映像分類タスクの結果は,既存の作業よりも優れ,トップ1の精度98.8%,トップ5の精度99.9%に到達した。

関連論文リスト

Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-14T13:52:03Z)
ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文参考訳（メタデータ） (2023-08-07T20:50:54Z)
ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders [11.727612242016871]
ViC-MAEはMasked AutoEncoders(MAE)とコントラスト学習を組み合わせたモデルである。 ViC-MAEで学習した視覚表現は、映像分類と画像分類の両方によく当てはまる。
論文参考訳（メタデータ） (2023-03-21T16:33:40Z)
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文参考訳（メタデータ） (2022-12-31T11:36:53Z)
InternVideo: General Video Foundation Models via Generative and Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。 InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-06T18:09:49Z)
MAiVAR: Multimodal Audio-Image and Video Action Recognizer [18.72489078928417]
我々は,CNNの表現プロセスが,タスクに画像に基づく行動表現を組み込むことで,マルチモーダルな行動認識にも活用できるかどうかを検討する。本稿では,CNNを用いた映像融合モデルを提案する。
論文参考訳（メタデータ） (2022-09-11T03:52:27Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文参考訳（メタデータ） (2021-02-11T02:24:00Z)
Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文参考訳（メタデータ） (2020-07-29T16:19:50Z)
Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-29T17:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。