論文の概要: CLIP-guided Prototype Modulating for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2303.02982v1
- Date: Mon, 6 Mar 2023 09:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:31:34.406610
- Title: CLIP-guided Prototype Modulating for Few-shot Action Recognition
- Title(参考訳): ファウショット動作認識のためのCLIP誘導型プロトタイプ変調
- Authors: Xiang Wang, Shiwei Zhang, Jun Cen, Changxin Gao, Yingya Zhang, Deli
Zhao, Nong Sang
- Abstract要約: この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
- 参考スコア(独自算出の注目度): 49.11385095278407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from large-scale contrastive language-image pre-training like CLIP
has shown remarkable success in a wide range of downstream tasks recently, but
it is still under-explored on the challenging few-shot action recognition
(FSAR) task. In this work, we aim to transfer the powerful multimodal knowledge
of CLIP to alleviate the inaccurate prototype estimation issue due to data
scarcity, which is a critical problem in low-shot regimes. To this end, we
present a CLIP-guided prototype modulating framework called CLIP-FSAR, which
consists of two key components: a video-text contrastive objective and a
prototype modulation. Specifically, the former bridges the task discrepancy
between CLIP and the few-shot video task by contrasting videos and
corresponding class text descriptions. The latter leverages the transferable
textual concepts from CLIP to adaptively refine visual prototypes with a
temporal Transformer. By this means, CLIP-FSAR can take full advantage of the
rich semantic priors in CLIP to obtain reliable prototypes and achieve accurate
few-shot classification. Extensive experiments on five commonly used benchmarks
demonstrate the effectiveness of our proposed method, and CLIP-FSAR
significantly outperforms existing state-of-the-art methods under various
settings. The source code and models will be publicly available at
https://github.com/alibaba-mmai-research/CLIP-FSAR.
- Abstract(参考訳): CLIPのような大規模なコントラスト言語イメージ事前トレーニングから学んだことは、近年、幅広いダウンストリームタスクで顕著な成功を収めている。
本研究では,データ不足による不正確なプロトタイプ推定問題を軽減するために,クリップの強力なマルチモーダル知識を伝達することを目的としている。
そこで本研究では,ビデオテキストコントラスト目標とプロトタイプ変調の2つの主成分からなる,クリップガイド付きプロトタイプ変調フレームワーク clip-fsar を提案する。
具体的には、CLIPと数ショットのビデオタスクとの間のタスクの相違を、ビデオとそれに対応するクラステキスト記述とを対比することによって橋渡しする。
後者はCLIPから変換可能なテキストの概念を活用して、時間変換器で視覚プロトタイプを適応的に洗練する。
これにより、CLIP-FSARは、CLIPのリッチなセマンティックプリエントをフル活用して、信頼性の高いプロトタイプを取得し、正確な数発の分類を達成できる。
5つのベンチマークを用いた広範囲な実験により,提案手法の有効性が実証された。
ソースコードとモデルはhttps://github.com/alibaba-mmai-research/CLIP-FSARで公開されている。
関連論文リスト
- FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval [10.26297663751352]
CMR (Few-shot Cross-Modal Search) は、ターゲットドメインと別のモダリティで意味的に類似したインスタンスを検索する。
CLIPのような視覚言語による事前学習手法は、非常に少ないショットまたはゼロショットの学習性能を示している。
これらの課題に対処するために,新しい特徴レベル生成ネットワーク強化CLIPであるFLEX-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-26T14:12:14Z) - CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。
様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-28T09:28:51Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning [50.78033979438031]
まず、ログバイアスの観点から、CLIPに基づく数ショット学習手法を統一的な定式化して分析する。
本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。
論文 参考訳(メタデータ) (2024-04-13T10:46:11Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning [16.613744920566436]
Proto-CLIPは、CLIPのような大規模ビジョン言語モデルに基づく、数発の学習のためのフレームワークである。
Proto-CLIPは、CLIPからのイメージとテキストエンコーダの埋め込みを、いくつかの例を使って共同で調整する。
Proto-CLIPにはトレーニング不要と微調整の2種類がある。
論文 参考訳(メタデータ) (2023-07-06T15:41:53Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。