論文の概要: CLIP-guided Prototype Modulating for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2303.02982v1
- Date: Mon, 6 Mar 2023 09:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:31:34.406610
- Title: CLIP-guided Prototype Modulating for Few-shot Action Recognition
- Title(参考訳): ファウショット動作認識のためのCLIP誘導型プロトタイプ変調
- Authors: Xiang Wang, Shiwei Zhang, Jun Cen, Changxin Gao, Yingya Zhang, Deli
Zhao, Nong Sang
- Abstract要約: この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
- 参考スコア(独自算出の注目度): 49.11385095278407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from large-scale contrastive language-image pre-training like CLIP
has shown remarkable success in a wide range of downstream tasks recently, but
it is still under-explored on the challenging few-shot action recognition
(FSAR) task. In this work, we aim to transfer the powerful multimodal knowledge
of CLIP to alleviate the inaccurate prototype estimation issue due to data
scarcity, which is a critical problem in low-shot regimes. To this end, we
present a CLIP-guided prototype modulating framework called CLIP-FSAR, which
consists of two key components: a video-text contrastive objective and a
prototype modulation. Specifically, the former bridges the task discrepancy
between CLIP and the few-shot video task by contrasting videos and
corresponding class text descriptions. The latter leverages the transferable
textual concepts from CLIP to adaptively refine visual prototypes with a
temporal Transformer. By this means, CLIP-FSAR can take full advantage of the
rich semantic priors in CLIP to obtain reliable prototypes and achieve accurate
few-shot classification. Extensive experiments on five commonly used benchmarks
demonstrate the effectiveness of our proposed method, and CLIP-FSAR
significantly outperforms existing state-of-the-art methods under various
settings. The source code and models will be publicly available at
https://github.com/alibaba-mmai-research/CLIP-FSAR.
- Abstract(参考訳): CLIPのような大規模なコントラスト言語イメージ事前トレーニングから学んだことは、近年、幅広いダウンストリームタスクで顕著な成功を収めている。
本研究では,データ不足による不正確なプロトタイプ推定問題を軽減するために,クリップの強力なマルチモーダル知識を伝達することを目的としている。
そこで本研究では,ビデオテキストコントラスト目標とプロトタイプ変調の2つの主成分からなる,クリップガイド付きプロトタイプ変調フレームワーク clip-fsar を提案する。
具体的には、CLIPと数ショットのビデオタスクとの間のタスクの相違を、ビデオとそれに対応するクラステキスト記述とを対比することによって橋渡しする。
後者はCLIPから変換可能なテキストの概念を活用して、時間変換器で視覚プロトタイプを適応的に洗練する。
これにより、CLIP-FSARは、CLIPのリッチなセマンティックプリエントをフル活用して、信頼性の高いプロトタイプを取得し、正確な数発の分類を達成できる。
5つのベンチマークを用いた広範囲な実験により,提案手法の有効性が実証された。
ソースコードとモデルはhttps://github.com/alibaba-mmai-research/CLIP-FSARで公開されている。
関連論文リスト
- Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Multimodal Adaptation of CLIP for Few-Shot Action Recognition [42.88862774719768]
本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
私たちが設計したアダプタは、タスク指向の時間的モデリングのためのビデオテキストソースからの情報を組み合わせることができる。
当社のMA-CLIPはプラグイン・アンド・プレイであり、様々な数発のアクション認識時間的アライメントメトリックで使用することができる。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning [24.342177969408826]
本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。
画像のプロトタイプとテキストのプロトタイプを利用して、数ショットの学習を行うProto-CLIPを提案する。
論文 参考訳(メタデータ) (2023-07-06T15:41:53Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。