論文の概要: Multimodal Adaptation of CLIP for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2308.01532v1
- Date: Thu, 3 Aug 2023 04:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:15:20.865435
- Title: Multimodal Adaptation of CLIP for Few-Shot Action Recognition
- Title(参考訳): Few-Shot行動認識のためのCLIPのマルチモーダル適応
- Authors: Jiazheng Xing, Mengmeng Wang, Xiaojun Hou, Guang Dai, Jingdong Wang,
Yong Liu
- Abstract要約: 本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
私たちが設計したアダプタは、タスク指向の時間的モデリングのためのビデオテキストソースからの情報を組み合わせることができる。
当社のMA-CLIPはプラグイン・アンド・プレイであり、様々な数発のアクション認識時間的アライメントメトリックで使用することができる。
- 参考スコア(独自算出の注目度): 42.88862774719768
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Applying large-scale pre-trained visual models like CLIP to few-shot action
recognition tasks can benefit performance and efficiency. Utilizing the
"pre-training, fine-tuning" paradigm makes it possible to avoid training a
network from scratch, which can be time-consuming and resource-intensive.
However, this method has two drawbacks. First, limited labeled samples for
few-shot action recognition necessitate minimizing the number of tunable
parameters to mitigate over-fitting, also leading to inadequate fine-tuning
that increases resource consumption and may disrupt the generalized
representation of models. Second, the video's extra-temporal dimension
challenges few-shot recognition's effective temporal modeling, while
pre-trained visual models are usually image models. This paper proposes a novel
method called Multimodal Adaptation of CLIP (MA-CLIP) to address these issues.
It adapts CLIP for few-shot action recognition by adding lightweight adapters,
which can minimize the number of learnable parameters and enable the model to
transfer across different tasks quickly. The adapters we design can combine
information from video-text multimodal sources for task-oriented spatiotemporal
modeling, which is fast, efficient, and has low training costs. Additionally,
based on the attention mechanism, we design a text-guided prototype
construction module that can fully utilize video-text information to enhance
the representation of video prototypes. Our MA-CLIP is plug-and-play, which can
be used in any different few-shot action recognition temporal alignment metric.
- Abstract(参考訳): CLIPのような大規模トレーニング済みのビジュアルモデルを数ショットのアクション認識タスクに適用することで、パフォーマンスと効率性が向上する。
事前トレーニング、微調整”パラダイムを利用することで、ネットワークのトレーニングをスクラッチから回避することが可能になります。
しかし、この方法には2つの欠点がある。
第一に、少数のアクション認識のための限定されたラベル付きサンプルは、調整可能なパラメータの数を最小限に抑え、過剰適合を緩和し、資源消費を増大させ、モデルの一般化表現を阻害する不適切な微調整をもたらす。
第2に、ビデオの時間外次元は、ほとんどショット認識の効果的な時間モデルに挑戦するが、事前訓練された視覚モデルは通常イメージモデルである。
本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
軽量なアダプタを追加し、学習可能なパラメータの数を最小化し、モデルをさまざまなタスク間で素早く転送できるようにする。
我々の設計したアダプタは、タスク指向の時空間モデリングのためのビデオテキストマルチモーダルソースからの情報を組み合わせることができる。
さらに,注意機構に基づいて,ビデオプロトタイプの表現性を高めるために,映像テキスト情報を十分に活用できるテキスト誘導型プロトタイプ構築モジュールを設計する。
当社のma-clipはプラグ・アンド・プレイであり、あらゆる異なるマイナショットアクション認識時間アライメントメトリックで使用できる。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action
Recognition [39.92547393649842]
これらの課題に対処するために,新しいMultimodal,Multi-task CLIP適応フレームワークの名前付きフレームワークを導入する。
ゼロショットシナリオにおける強力な一般化を維持しつつ、教師あり学習における例外的な性能を示す。
論文 参考訳(メタデータ) (2024-01-22T02:03:31Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。