Fugu-MT 論文翻訳(概要): CLIP-guided Prototype Modulating for Few-shot Action Recognition

論文の概要: CLIP-guided Prototype Modulating for Few-shot Action Recognition

arxiv url: http://arxiv.org/abs/2303.02982v1
Date: Mon, 6 Mar 2023 09:17:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 16:31:34.406610
Title: CLIP-guided Prototype Modulating for Few-shot Action Recognition
Title（参考訳）: ファウショット動作認識のためのCLIP誘導型プロトタイプ変調
Authors: Xiang Wang, Shiwei Zhang, Jun Cen, Changxin Gao, Yingya Zhang, Deli Zhao, Nong Sang
Abstract要約: この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
参考スコア（独自算出の注目度）: 49.11385095278407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from large-scale contrastive language-image pre-training like CLIP has shown remarkable success in a wide range of downstream tasks recently, but it is still under-explored on the challenging few-shot action recognition (FSAR) task. In this work, we aim to transfer the powerful multimodal knowledge of CLIP to alleviate the inaccurate prototype estimation issue due to data scarcity, which is a critical problem in low-shot regimes. To this end, we present a CLIP-guided prototype modulating framework called CLIP-FSAR, which consists of two key components: a video-text contrastive objective and a prototype modulation. Specifically, the former bridges the task discrepancy between CLIP and the few-shot video task by contrasting videos and corresponding class text descriptions. The latter leverages the transferable textual concepts from CLIP to adaptively refine visual prototypes with a temporal Transformer. By this means, CLIP-FSAR can take full advantage of the rich semantic priors in CLIP to obtain reliable prototypes and achieve accurate few-shot classification. Extensive experiments on five commonly used benchmarks demonstrate the effectiveness of our proposed method, and CLIP-FSAR significantly outperforms existing state-of-the-art methods under various settings. The source code and models will be publicly available at https://github.com/alibaba-mmai-research/CLIP-FSAR.
Abstract（参考訳）: CLIPのような大規模なコントラスト言語イメージ事前トレーニングから学んだことは、近年、幅広いダウンストリームタスクで顕著な成功を収めている。本研究では,データ不足による不正確なプロトタイプ推定問題を軽減するために,クリップの強力なマルチモーダル知識を伝達することを目的としている。そこで本研究では,ビデオテキストコントラスト目標とプロトタイプ変調の2つの主成分からなる,クリップガイド付きプロトタイプ変調フレームワーク clip-fsar を提案する。具体的には、CLIPと数ショットのビデオタスクとの間のタスクの相違を、ビデオとそれに対応するクラステキスト記述とを対比することによって橋渡しする。後者はCLIPから変換可能なテキストの概念を活用して、時間変換器で視覚プロトタイプを適応的に洗練する。これにより、CLIP-FSARは、CLIPのリッチなセマンティックプリエントをフル活用して、信頼性の高いプロトタイプを取得し、正確な数発の分類を達成できる。 5つのベンチマークを用いた広範囲な実験により,提案手法の有効性が実証された。ソースコードとモデルはhttps://github.com/alibaba-mmai-research/CLIP-FSARで公開されている。

関連論文リスト

Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文参考訳（メタデータ） (2025-08-05T05:30:42Z)
Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。 FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2025-06-28T18:36:22Z)
un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-09T14:04:09Z)
FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval [10.26297663751352]
CMR (Few-shot Cross-Modal Search) は、ターゲットドメインと別のモダリティで意味的に類似したインスタンスを検索する。 CLIPのような視覚言語による事前学習手法は、非常に少ないショットまたはゼロショットの学習性能を示している。これらの課題に対処するために,新しい特徴レベル生成ネットワーク強化CLIPであるFLEX-CLIPを提案する。
論文参考訳（メタデータ） (2024-11-26T14:12:14Z)
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。 DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-09-28T09:28:51Z)
C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文参考訳（メタデータ） (2024-08-19T02:14:25Z)
AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning [50.78033979438031]
まず、ログバイアスの観点から、CLIPに基づく数ショット学習手法を統一的な定式化して分析する。本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。
論文参考訳（メタデータ） (2024-04-13T10:46:11Z)
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-08-22T14:58:36Z)
MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文参考訳（メタデータ） (2023-08-03T04:17:25Z)
Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning [16.613744920566436]
Proto-CLIPは、CLIPのような大規模ビジョン言語モデルに基づく、数発の学習のためのフレームワークである。 Proto-CLIPは、CLIPからのイメージとテキストエンコーダの埋め込みを、いくつかの例を使って共同で調整する。 Proto-CLIPにはトレーニング不要と微調整の2種類がある。
論文参考訳（メタデータ） (2023-07-06T15:41:53Z)
Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-02-28T06:06:12Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。