Fugu-MT 論文翻訳(概要): Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

論文の概要: Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

arxiv url: http://arxiv.org/abs/2301.00182v1
Date: Sat, 31 Dec 2022 11:36:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 15:00:53.073332
Title: Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models
Title（参考訳）: 事前学習型視覚言語モデルを用いたビデオ認識のための双方向クロスモーダル知識探索
Authors: Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
Abstract要約: 本稿では、双方向の知識を探索するクロスモーダルブリッジを用いたBIKEと呼ばれる新しいフレームワークを提案する。また、テキスト・トゥ・ビデオの専門知識を用いて、パラメータフリーで時間的サリエンシをキャプチャする時間的概念スポッティング機構を提案する。我々の知る限り、我々の最良のモデルは、リリース済みのCLIP事前訓練モデルでKinetics-400に挑戦する上で、最先端の精度88.4%を達成する。
参考スコア（独自算出の注目度）: 149.1331903899298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) that are pre-trained on large-scale image-text pairs have demonstrated impressive transferability on a wide range of visual tasks. Transferring knowledge from such powerful pre-trained VLMs is emerging as a promising direction for building effective video recognition models. However, the current exploration is still limited. In our opinion, the greatest charm of pre-trained vision-language models is to build a bridge between visual and textual domains. In this paper, we present a novel framework called BIKE which utilizes the cross-modal bridge to explore bidirectional knowledge: i) We propose a Video Attribute Association mechanism which leverages the Video-to-Text knowledge to generate textual auxiliary attributes to complement video recognition. ii) We also present a Temporal Concept Spotting mechanism which uses the Text-to-Video expertise to capture temporal saliency in a parameter-free manner to yield enhanced video representation. The extensive studies on popular video datasets (ie, Kinetics-400 & 600, UCF-101, HMDB-51 and ActivityNet) show that our method achieves state-of-the-art performance in most recognition scenarios, eg, general, zero-shot, and few-shot video recognition. To the best of our knowledge, our best model achieves a state-of-the-art accuracy of 88.4% on challenging Kinetics-400 with the released CLIP pre-trained model.
Abstract（参考訳）: 大規模画像テキストペア上で事前訓練された視覚言語モデル(VLM)は、幅広い視覚的タスクにおいて印象的な伝達性を示す。このような強力な訓練済みVLMから知識を伝達することは、効果的なビデオ認識モデルを構築する上で有望な方向として現れつつある。しかし、現在の探査は限られている。私たちの意見では、事前訓練された視覚言語モデルの最大の魅力は、視覚ドメインとテキストドメインの橋渡しを構築することです。本稿では,双方向の知識を探索するクロスモーダルブリッジを用いたBIKEと呼ばれる新しいフレームワークを提案する。 i) 映像認識を補完する補助属性を生成するために, 映像からテキストへの知識を活用した映像属性アソシエーション機構を提案する。また,テキスト・トゥ・ビデオの専門知識を用いて,時間的サリエンシをパラメータフリーで把握し,映像表現を向上する時間的概念スポッティング機構を提案する。一般的なビデオデータセット(Kineetics-400 & 600, UCF-101, HMDB-51, ActivityNet)の広範な研究により,本手法は,ほとんどの認識シナリオ,例えば一般,ゼロショット,少数ショットの映像認識において最先端のパフォーマンスを達成することを示す。我々の知る限り、我々の最良のモデルは、リリース済みのCLIP事前訓練モデルでKinetics-400に挑戦する上で、最先端の精度88.4%を達成する。

関連論文リスト

VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T07:27:19Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition [8.18503795495178]
我々は、一般化可能なビデオ認識を容易にするために、テキスト知識の洗練を優先する。カテゴリー名の区別の少ない意味空間の限界に対処するため、我々は大規模言語モデル (LLM) を推し進める。我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
論文参考訳（メタデータ） (2023-11-30T13:32:43Z)
ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文参考訳（メタデータ） (2023-08-07T20:50:54Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
InternVideo: General Video Foundation Models via Generative and Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。 InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-06T18:09:49Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文参考訳（メタデータ） (2022-08-04T17:59:54Z)
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。 MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文参考訳（メタデータ） (2022-07-15T17:59:11Z)
Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文参考訳（メタデータ） (2020-01-16T08:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。