論文の概要: Videoprompter: an ensemble of foundational models for zero-shot video
understanding
- arxiv url: http://arxiv.org/abs/2310.15324v1
- Date: Mon, 23 Oct 2023 19:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:51:27.365060
- Title: Videoprompter: an ensemble of foundational models for zero-shot video
understanding
- Title(参考訳): videoprompter:ゼロショットビデオ理解のための基礎モデルのアンサンブル
- Authors: Adeel Yousaf, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan,
Mubarak Shah
- Abstract要約: 視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 113.92958148574228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) classify the query video by calculating a
similarity score between the visual features and text-based class label
representations. Recently, large language models (LLMs) have been used to
enrich the text-based class labels by enhancing the descriptiveness of the
class names. However, these improvements are restricted to the text-based
classifier only, and the query visual features are not considered. In this
paper, we propose a framework which combines pre-trained discriminative VLMs
with pre-trained generative video-to-text and text-to-text models. We introduce
two key modifications to the standard zero-shot setting. First, we propose
language-guided visual feature enhancement and employ a video-to-text model to
convert the query video to its descriptive form. The resulting descriptions
contain vital visual cues of the query video, such as what objects are present
and their spatio-temporal interactions. These descriptive cues provide
additional semantic knowledge to VLMs to enhance their zeroshot performance.
Second, we propose video-specific prompts to LLMs to generate more meaningful
descriptions to enrich class label representations. Specifically, we introduce
prompt techniques to create a Tree Hierarchy of Categories for class names,
offering a higher-level action context for additional visual cues, We
demonstrate the effectiveness of our approach in video understanding across
three different zero-shot settings: 1) video action recognition, 2)
video-to-text and textto-video retrieval, and 3) time-sensitive video tasks.
Consistent improvements across multiple benchmarks and with various VLMs
demonstrate the effectiveness of our proposed framework. Our code will be made
publicly available.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
近年,大言語モデル (LLM) は, クラス名の記述性を高めて, テキストベースのクラスラベルの強化に利用されている。
しかし、これらの改善はテキストベースの分類器に限られており、クエリの視覚的特徴は考慮されていない。
本稿では,事前学習した識別型VLMと,事前学習したビデオテキストとテキストテキストモデルを組み合わせたフレームワークを提案する。
標準ゼロショット設定に2つの重要な変更を導入する。
まず,言語誘導型視覚機能拡張を提案し,ビデオからテキストまでのモデルを用いて,クエリ映像を記述形式に変換する。
得られた説明には、どのオブジェクトが存在するかや、時空間的相互作用など、クエリビデオの重要な視覚的手がかりが含まれている。
これらの記述的手がかりは、ゼロショット性能を高めるためにVLMにさらなる意味知識を提供する。
第2に、クラスラベル表現を豊かにするために、より意味のある記述を生成するためのビデオ固有プロンプトを提案する。
具体的には、クラス名のカテゴリのツリー階層を作成するためのプロンプト手法を導入し、追加の視覚的手がかりに対して高レベルなアクションコンテキストを提供するとともに、3つの異なるゼロショット設定におけるビデオ理解における我々のアプローチの有効性を実証する。
1)ビデオアクション認識
2)ビデオ対テキスト、テキスト対ビデオ検索、及び
3)タイムセンシティブなビデオタスク。
複数のベンチマークと様々なVLMで一貫した改善が提案するフレームワークの有効性を実証する。
私たちのコードは公開されます。
関連論文リスト
- Open Vocabulary Multi-Label Video Classification [45.722133656740446]
この問題をオープン語彙多ラベルビデオ分類として定式化し、CLIPなどの事前学習VLMを適用してこの問題を解決する方法を提案する。
本稿では,LLMにCLIPテキストエンコーダのソフト属性を生成して,新しいクラスを認識できるようにする,エンドツーエンドのトレーニング可能なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-12T07:53:54Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Enhancing Gait Video Analysis in Neurodegenerative Diseases by Knowledge Augmentation in Vision Language Model [10.742625681420279]
大規模な事前学習型視覚言語モデル(VLM)に基づいて,患者の歩行映像の視覚的,テキスト的,数値的表現を学習し,改善する。
結果から,本モデルはビデオベース分類タスクにおいて最先端の手法よりも優れるだけでなく,学習したクラス固有のテキスト特徴を自然言語記述に包括的にデコードすることがわかった。
論文 参考訳(メタデータ) (2024-03-20T17:03:38Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。