論文の概要: Multimodal Adaptation of CLIP for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2308.01532v1
- Date: Thu, 3 Aug 2023 04:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:15:20.865435
- Title: Multimodal Adaptation of CLIP for Few-Shot Action Recognition
- Title(参考訳): Few-Shot行動認識のためのCLIPのマルチモーダル適応
- Authors: Jiazheng Xing, Mengmeng Wang, Xiaojun Hou, Guang Dai, Jingdong Wang,
Yong Liu
- Abstract要約: 本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
私たちが設計したアダプタは、タスク指向の時間的モデリングのためのビデオテキストソースからの情報を組み合わせることができる。
当社のMA-CLIPはプラグイン・アンド・プレイであり、様々な数発のアクション認識時間的アライメントメトリックで使用することができる。
- 参考スコア(独自算出の注目度): 42.88862774719768
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Applying large-scale pre-trained visual models like CLIP to few-shot action
recognition tasks can benefit performance and efficiency. Utilizing the
"pre-training, fine-tuning" paradigm makes it possible to avoid training a
network from scratch, which can be time-consuming and resource-intensive.
However, this method has two drawbacks. First, limited labeled samples for
few-shot action recognition necessitate minimizing the number of tunable
parameters to mitigate over-fitting, also leading to inadequate fine-tuning
that increases resource consumption and may disrupt the generalized
representation of models. Second, the video's extra-temporal dimension
challenges few-shot recognition's effective temporal modeling, while
pre-trained visual models are usually image models. This paper proposes a novel
method called Multimodal Adaptation of CLIP (MA-CLIP) to address these issues.
It adapts CLIP for few-shot action recognition by adding lightweight adapters,
which can minimize the number of learnable parameters and enable the model to
transfer across different tasks quickly. The adapters we design can combine
information from video-text multimodal sources for task-oriented spatiotemporal
modeling, which is fast, efficient, and has low training costs. Additionally,
based on the attention mechanism, we design a text-guided prototype
construction module that can fully utilize video-text information to enhance
the representation of video prototypes. Our MA-CLIP is plug-and-play, which can
be used in any different few-shot action recognition temporal alignment metric.
- Abstract(参考訳): CLIPのような大規模トレーニング済みのビジュアルモデルを数ショットのアクション認識タスクに適用することで、パフォーマンスと効率性が向上する。
事前トレーニング、微調整”パラダイムを利用することで、ネットワークのトレーニングをスクラッチから回避することが可能になります。
しかし、この方法には2つの欠点がある。
第一に、少数のアクション認識のための限定されたラベル付きサンプルは、調整可能なパラメータの数を最小限に抑え、過剰適合を緩和し、資源消費を増大させ、モデルの一般化表現を阻害する不適切な微調整をもたらす。
第2に、ビデオの時間外次元は、ほとんどショット認識の効果的な時間モデルに挑戦するが、事前訓練された視覚モデルは通常イメージモデルである。
本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
軽量なアダプタを追加し、学習可能なパラメータの数を最小化し、モデルをさまざまなタスク間で素早く転送できるようにする。
我々の設計したアダプタは、タスク指向の時空間モデリングのためのビデオテキストマルチモーダルソースからの情報を組み合わせることができる。
さらに,注意機構に基づいて,ビデオプロトタイプの表現性を高めるために,映像テキスト情報を十分に活用できるテキスト誘導型プロトタイプ構築モジュールを設計する。
当社のma-clipはプラグ・アンド・プレイであり、あらゆる異なるマイナショットアクション認識時間アライメントメトリックで使用できる。
関連論文リスト
- D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for
Few-shot Action Recognition [65.27285089305845]
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$2$ST-Adapter) は、数発のアクション認識のための新しいアダプタフレームワークである。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。