論文の概要: Is Temporal Prompting All We Need For Limited Labeled Action Recognition?
- arxiv url: http://arxiv.org/abs/2504.01890v2
- Date: Mon, 07 Apr 2025 08:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:45.470639
- Title: Is Temporal Prompting All We Need For Limited Labeled Action Recognition?
- Title(参考訳): 限定ラベル付き行動認識のための時間的プロンプトは必要か?
- Authors: Shreyank N Gowda, Boyan Gao, Xiao Gu, Xiaobo Jin,
- Abstract要約: コアCLIPアーキテクチャを変更することなく、時間的視覚的プロンプトを利用して時間的適応を行うCLIPの適応であるTP-CLIPを提案する。
TP-CLIPはCLIPアーキテクチャに効率的に統合され、ビデオデータに事前トレーニングされた機能を活用する。
- 参考スコア(独自算出の注目度): 11.47868206641396
- License:
- Abstract: Video understanding has shown remarkable improvements in recent years, largely dependent on the availability of large scaled labeled datasets. Recent advancements in visual-language models, especially based on contrastive pretraining, have shown remarkable generalization in zero-shot tasks, helping to overcome this dependence on labeled datasets. Adaptations of such models for videos, typically involve modifying the architecture of vision-language models to cater to video data. However, this is not trivial, since such adaptations are mostly computationally intensive and struggle with temporal modeling. We present TP-CLIP, an adaptation of CLIP that leverages temporal visual prompting for temporal adaptation without modifying the core CLIP architecture. This preserves its generalization abilities. TP-CLIP efficiently integrates into the CLIP architecture, leveraging its pre-trained capabilities for video data. Extensive experiments across various datasets demonstrate its efficacy in zero-shot and few-shot learning, outperforming existing approaches with fewer parameters and computational efficiency. In particular, we use just 1/3 the GFLOPs and 1/28 the number of tuneable parameters in comparison to recent state-of-the-art and still outperform it by up to 15.8% depending on the task and dataset.
- Abstract(参考訳): ビデオ理解は近年,大規模ラベル付きデータセットの可用性に大きく依存するなど,目覚ましい改善を遂げている。
視覚言語モデルの最近の進歩は、特に対照的な事前訓練に基づいており、ゼロショットタスクにおいて顕著な一般化を示しており、ラベル付きデータセットへの依存を克服するのに役立っている。
ビデオに対するそのようなモデルの適応は、典型的にはビデオデータに対応するために視覚言語モデルのアーキテクチャを変更することを含む。
しかし、このような適応は主に計算集約的であり、時間的モデリングに苦慮しているため、これは自明ではない。
コアCLIPアーキテクチャを変更することなく、時間的視覚的プロンプトを利用して時間的適応を行うCLIPの適応であるTP-CLIPを提案する。
これにより一般化能力が保たれる。
TP-CLIPはCLIPアーキテクチャに効率的に統合され、ビデオデータに事前トレーニングされた機能を活用する。
様々なデータセットにわたる大規模な実験は、ゼロショットと少数ショットの学習においてその有効性を示し、パラメータが少なく、計算効率で既存のアプローチより優れている。
特に、GFLOPの1/3と1/28しか使用せず、最近の最先端と比較して調整可能なパラメータの数であり、タスクやデータセットによっても最大で15.8%上回っています。
関連論文リスト
- Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation [4.02235104503587]
本稿では,3次元表現から得られる情報を利用して局所的な特徴を巧みにとらえる。
GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。
我々は,本モデルの縮小バージョンが,本格的な最先端モデルに対して強い競争力を示すだけでなく,リアルタイムに動作することを示す。
論文 参考訳(メタデータ) (2024-10-14T13:49:05Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - EZ-CLIP: Efficient Zeroshot Video Action Recognition [13.403597169664803]
本稿では,CLIPの簡易かつ効率的な適応であるEZ-CLIPを提案する。
本研究では,時間的視覚的プロンプトに焦点をあてる新たな学習目標を提案する。
EZ-CLIPは1つのGPUで効率的にトレーニングすることができ、いくつかの評価で既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-12-13T09:33:08Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Localized Latent Updates for Fine-Tuning Vision-Language Models [15.285292154680246]
この作業では,データポイントに近いモデル予測のみを更新する,軽量なアダプタを提案する。
我々は、この比較的単純なアプローチの有効性とスピードを、数ショットの学習の文脈で示し、トレーニング中に見られるクラスと見えないクラスの両方の結果が、芸術の状況に匹敵するか、改善されるかのどちらかであることを示した。
論文 参考訳(メタデータ) (2022-12-13T13:15:20Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。