論文の概要: Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2301.00182v1
- Date: Sat, 31 Dec 2022 11:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:00:53.073332
- Title: Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models
- Title(参考訳): 事前学習型視覚言語モデルを用いたビデオ認識のための双方向クロスモーダル知識探索
- Authors: Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli
Ouyang
- Abstract要約: 本稿では、双方向の知識を探索するクロスモーダルブリッジを用いたBIKEと呼ばれる新しいフレームワークを提案する。
また、テキスト・トゥ・ビデオの専門知識を用いて、パラメータフリーで時間的サリエンシをキャプチャする時間的概念スポッティング機構を提案する。
我々の知る限り、我々の最良のモデルは、リリース済みのCLIP事前訓練モデルでKinetics-400に挑戦する上で、最先端の精度88.4%を達成する。
- 参考スコア(独自算出の注目度): 149.1331903899298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) that are pre-trained on large-scale image-text
pairs have demonstrated impressive transferability on a wide range of visual
tasks. Transferring knowledge from such powerful pre-trained VLMs is emerging
as a promising direction for building effective video recognition models.
However, the current exploration is still limited. In our opinion, the greatest
charm of pre-trained vision-language models is to build a bridge between visual
and textual domains. In this paper, we present a novel framework called BIKE
which utilizes the cross-modal bridge to explore bidirectional knowledge: i) We
propose a Video Attribute Association mechanism which leverages the
Video-to-Text knowledge to generate textual auxiliary attributes to complement
video recognition. ii) We also present a Temporal Concept Spotting mechanism
which uses the Text-to-Video expertise to capture temporal saliency in a
parameter-free manner to yield enhanced video representation. The extensive
studies on popular video datasets (ie, Kinetics-400 & 600, UCF-101, HMDB-51 and
ActivityNet) show that our method achieves state-of-the-art performance in most
recognition scenarios, eg, general, zero-shot, and few-shot video recognition.
To the best of our knowledge, our best model achieves a state-of-the-art
accuracy of 88.4% on challenging Kinetics-400 with the released CLIP
pre-trained model.
- Abstract(参考訳): 大規模画像テキストペア上で事前訓練された視覚言語モデル(VLM)は、幅広い視覚的タスクにおいて印象的な伝達性を示す。
このような強力な訓練済みVLMから知識を伝達することは、効果的なビデオ認識モデルを構築する上で有望な方向として現れつつある。
しかし、現在の探査は限られている。
私たちの意見では、事前訓練された視覚言語モデルの最大の魅力は、視覚ドメインとテキストドメインの橋渡しを構築することです。
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いたBIKEと呼ばれる新しいフレームワークを提案する。
i) 映像認識を補完する補助属性を生成するために, 映像からテキストへの知識を活用した映像属性アソシエーション機構を提案する。
また,テキスト・トゥ・ビデオの専門知識を用いて,時間的サリエンシをパラメータフリーで把握し,映像表現を向上する時間的概念スポッティング機構を提案する。
一般的なビデオデータセット(Kineetics-400 & 600, UCF-101, HMDB-51, ActivityNet)の広範な研究により,本手法は,ほとんどの認識シナリオ,例えば一般,ゼロショット,少数ショットの映像認識において最先端のパフォーマンスを達成することを示す。
我々の知る限り、我々の最良のモデルは、リリース済みのCLIP事前訓練モデルでKinetics-400に挑戦する上で、最先端の精度88.4%を達成する。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition [8.18503795495178]
我々は、一般化可能なビデオ認識を容易にするために、テキスト知識の洗練を優先する。
カテゴリー名の区別の少ない意味空間の限界に対処するため、我々は大規模言語モデル (LLM) を推し進める。
我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
論文 参考訳(メタデータ) (2023-11-30T13:32:43Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。