論文の概要: FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action
Recognition
- arxiv url: http://arxiv.org/abs/2402.03241v1
- Date: Mon, 5 Feb 2024 17:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:31:59.097404
- Title: FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action
Recognition
- Title(参考訳): FROSTER:Frozen CLIPはオープン語彙認識のための強力な教師
- Authors: Xiaohu Huang, Hao Zhou, Kun Yao, Kai Han
- Abstract要約: オープン語彙行動認識のための効果的なフレームワークであるFROSTERを紹介する。
CLIPをアクション認識タスクに直接適用することは、CLIPの事前トレーニングに時間情報がないため、難しい。
我々はFROSTERを,ベース・ツー・ノーベルとクロス・データセットの両設定の下で,オープン・ボキャブラリ・アクション認識ベンチマークで広範囲に評価した。
- 参考スコア(独自算出の注目度): 30.15770881713811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce FROSTER, an effective framework for
open-vocabulary action recognition. The CLIP model has achieved remarkable
success in a range of image-based tasks, benefiting from its strong
generalization capability stemming from pretaining on massive image-text pairs.
However, applying CLIP directly to the open-vocabulary action recognition task
is challenging due to the absence of temporal information in CLIP's
pretraining. Further, fine-tuning CLIP on action recognition datasets may lead
to overfitting and hinder its generalizability, resulting in unsatisfactory
results when dealing with unseen actions.
To address these issues, FROSTER employs a residual feature distillation
approach to ensure that CLIP retains its generalization capability while
effectively adapting to the action recognition task. Specifically, the residual
feature distillation treats the frozen CLIP model as a teacher to maintain the
generalizability exhibited by the original CLIP and supervises the feature
learning for the extraction of video-specific features to bridge the gap
between images and videos. Meanwhile, it uses a residual sub-network for
feature distillation to reach a balance between the two distinct objectives of
learning generalizable and video-specific features.
We extensively evaluate FROSTER on open-vocabulary action recognition
benchmarks under both base-to-novel and cross-dataset settings. FROSTER
consistently achieves state-of-the-art performance on all datasets across the
board. Project page: https://visual-ai.github.io/froster.
- Abstract(参考訳): 本稿では,オープン語彙行動認識のための効果的なフレームワークであるFROSTERを紹介する。
CLIPモデルは、大量の画像テキストペアの取得による強力な一般化能力の恩恵を受け、さまざまなイメージベースのタスクで顕著に成功している。
しかし,クリップの事前学習における時間情報がないため,オープンボキャブラリー動作認識タスクに直接クリップを適用することは困難である。
さらに、アクション認識データセットに微調整されたCLIPは、過度に適合し、その一般化を阻害する可能性がある。
これらの問題に対処するため、FROSTERは、CLIPが動作認識タスクに効果的に適応しつつ、その一般化能力を維持するために、残像蒸留アプローチを採用している。
具体的には、凍結したCLIPモデルを教師として扱い、元のCLIPが示す一般化性を維持し、ビデオ特有の特徴抽出のための特徴学習を監督し、画像とビデオのギャップを埋める。
一方、特徴蒸留には残留サブネットワークを使用し、一般的な特徴とビデオ特有の特徴を学習する2つの異なる目的のバランスを保っている。
我々はbase-to-novelとcross-datasetの両方の設定下で、オープンボカブラリーアクション認識ベンチマークのfrosterを広範囲に評価した。
FROSTERは、ボード全体にわたるすべてのデータセットの最先端のパフォーマンスを一貫して達成する。
プロジェクトページ: https://visual-ai.github.io/froster。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - CLFace: A Scalable and Resource-Efficient Continual Learning Framework for Lifelong Face Recognition [0.0]
CLFaceは学習知識の保存と漸進的な拡張を目的とした継続的学習フレームワークである。
分類層を排除し、生涯学習を通して固定された資源効率の高いFRモデルをもたらす。
教師モデルの特徴埋め込みの向きを維持するために、幾何学保存蒸留スキームが組み込まれている。
論文 参考訳(メタデータ) (2024-11-21T06:55:43Z) - FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance [7.041364616661048]
Foveal-Attention CLIP (FALIP) は、多頭部自己注意モジュールに葉の注意マスクを挿入することにより、CLIPの注意を調節する。
FALIPは、表現理解、画像分類、3Dポイントクラウド認識などのタスクにおいて、CLIPゼロショットのパフォーマンスを効果的に向上する。
論文 参考訳(メタデータ) (2024-07-08T03:23:13Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。