論文の概要: Open Vocabulary Multi-Label Video Classification
- arxiv url: http://arxiv.org/abs/2407.09073v1
- Date: Fri, 12 Jul 2024 07:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:17:04.546566
- Title: Open Vocabulary Multi-Label Video Classification
- Title(参考訳): Open Vocabulary Multi-Label Video 分類
- Authors: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi,
- Abstract要約: この問題をオープン語彙多ラベルビデオ分類として定式化し、CLIPなどの事前学習VLMを適用してこの問題を解決する方法を提案する。
本稿では,LLMにCLIPテキストエンコーダのソフト属性を生成して,新しいクラスを認識できるようにする,エンドツーエンドのトレーニング可能なアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 45.722133656740446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
- Abstract(参考訳): 事前学習された視覚言語モデル(VLM)は、画像分類、オブジェクト検出、画像セグメント化などのオープン語彙コンピュータビジョンタスクにおいて大きな進歩をもたらした。
いくつかの最近の研究はVLMを拡張し、ビデオ内の単一のラベルのアクション分類をオープンにすることに焦点を当てている。
しかし、従来の手法では、複数のアクションやエンティティを同時に認識する能力、例えば、ビデオ内のオブジェクトをオープンな語彙設定で認識する能力を必要とする、全体論的ビデオ理解では不足していた。
この問題をオープン語彙多ラベルビデオ分類として定式化し、CLIPなどの事前学習VLMを適用してこの問題を解決する方法を提案する。
大規模言語モデル(LLM)を活用して,クラスラベルに関するVLMのセマンティックガイダンスを提供し,そのオープンな語彙性能を2つの重要なコントリビューションで改善する。
まず、LLMにCLIPテキストエンコーダのソフト属性を生成して、新しいクラスを認識できるようにする、エンドツーエンドのトレーニング可能なアーキテクチャを提案する。
第2に、時間モデリングモジュールをCLIPの視覚エンコーダに統合し、ビデオ概念の時空間的ダイナミクスを効果的にモデル化し、ビデオ領域における強力なオープン語彙分類性能を保証するための新しい正規化微調整手法を提案する。
大規模な実験では、複数のベンチマークデータセットに対するアプローチの有効性を示す。
関連論文リスト
- Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Learning video embedding space with Natural Language Supervision [1.6822770693792823]
本稿では,映像埋め込み空間を自然言語にマッピングする新しい手法を提案する。
本稿では,まず,事前学習したCNNを用いてビデオの各フレームから視覚的特徴を抽出し,次にCLIPモデルを用いて映像領域の視覚的特徴を符号化する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-25T23:24:57Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。