論文の概要: EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges
- arxiv url: http://arxiv.org/abs/2604.22595v1
- Date: Fri, 24 Apr 2026 14:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.500542
- Title: EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges
- Title(参考訳): EV-CLIP:視覚課題下でのFew-shot行動認識におけるCLIPの効率的な視覚プロンプト適応
- Authors: Hyo Jin Jon, Longbin Jin, Eun Yi Kim,
- Abstract要約: Efficient Visual Prompting for CLIP (EV-CLIP) は、様々なシーンや視点にまたがるビデオアクション認識のための適応フレームワークである。
EV-CLIPは2つの視覚的プロンプトを導入している。マスクプロンプトは、ピクセルを再重み付けすることで、モデルがアクション関連領域に注意を向け、コンテキストプロンプトは軽量な時間的モデリングを実行する。
実験の結果,EV-CLIPは既存のパラメータ効率の手法よりも性能が優れていた。
- 参考スコア(独自算出の注目度): 1.9662978733004597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP has demonstrated strong generalization in visual domains through natural language supervision, even for video action recognition. However, most existing approaches that adapt CLIP for action recognition have primarily focused on temporal modeling, often overlooking spatial perception. In real-world scenarios, visual challenges such as low-light environments or egocentric viewpoints can severely impair spatial understanding, an essential precursor for effective temporal reasoning. To address this limitation, we propose Efficient Visual Prompting for CLIP (EV-CLIP), an efficient adaptation framework designed for few-shot video action recognition across diverse scenes and viewpoints. EV-CLIP introduces two visual prompts: mask prompts, which guide the model's attention to action-relevant regions by reweighting pixels, and context prompts, which perform lightweight temporal modeling by compressing frame-wise features into a compact representation. For a comprehensive evaluation, we curate five benchmark datasets and analyze domain shifts to quantify the influence of diverse visual and semantic factors on action recognition. Experimental results demonstrate that EV-CLIP outperforms existing parameter-efficient methods in overall performance. Moreover, its efficiency remains independent of the backbone scale, making it well-suited for deployment in real-world, resource-constrained scenarios. The code is available at https://github.com/AI-CV-Lab/EV-CLIP.
- Abstract(参考訳): CLIPは、ビデオアクション認識でさえも、自然言語の監督を通じて視覚領域の強力な一般化を実証している。
しかし、CLIPを行動認識に適用する既存のアプローチのほとんどは、時間的モデリングに重点を置いており、しばしば空間的知覚を見下ろしている。
現実のシナリオでは、低照度環境や自我中心の視点のような視覚的な課題は空間的理解を著しく損なう可能性がある。
この制限に対処するために,多様なシーンや視点にまたがるビデオアクション認識のための,効率的な適応フレームワークであるCLIP (EV-CLIP) の効率的なビジュアルプロンプトを提案する。
EV-CLIPは2つの視覚的プロンプトを導入する: マスクプロンプトは、ピクセルを再重み付けすることで、モデルがアクション関連領域に注意を向け、コンテキストプロンプトはフレームワイドの機能をコンパクトな表現に圧縮することで、軽量な時間的モデリングを実行する。
総合的な評価のために、5つのベンチマークデータセットをキュレートし、ドメインシフトを分析し、多様な視覚的および意味的要因が行動認識に与える影響を定量化する。
実験の結果,EV-CLIPは既存のパラメータ効率の手法よりも性能が優れていた。
さらに、その効率性はバックボーンスケールとは独立に保たれており、現実のリソース制約のあるシナリオにデプロイするのに適しています。
コードはhttps://github.com/AI-CV-Lab/EV-CLIPで入手できる。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach [43.419607730361996]
CLIPのようなビジョンランゲージモデル(VLM)は、対照的な学習を通じて、横断的なアライメントを実現する。
伝統的なプロンプトエンジニアリングは、きめ細かいカテゴリラベルに依存しており、きめ細かい局所的意味論を無視している。
そこで我々は,CLIPが局所化された視覚ディスクリプタを処理できるプラグイン・アンド・プレイソリューションを提案する。
論文 参考訳(メタデータ) (2025-07-04T10:24:26Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [21.87721909270275]
DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。
複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-05-07T13:46:34Z) - PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition [7.966499123076283]
CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供する
パラメータ効率の良い微調整フレームワークであるPE-CLIPを提案する。
効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。
論文 参考訳(メタデータ) (2025-03-21T08:45:50Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。