論文の概要: Consistency Prototype Module and Motion Compensation for Few-Shot Action
Recognition (CLIP-CP$\mathbf{M^2}$C)
- arxiv url: http://arxiv.org/abs/2312.01083v1
- Date: Sat, 2 Dec 2023 09:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:16:50.712604
- Title: Consistency Prototype Module and Motion Compensation for Few-Shot Action
Recognition (CLIP-CP$\mathbf{M^2}$C)
- Title(参考訳): Few-Shot Action Recognition(CLIP-CP$\mathbf{M^2}$C)のための一貫性モジュールと運動補償
- Authors: Fei Guo, Li Zhu, YiKang Wang, Han Qi
- Abstract要約: 本稿では,一貫性プロトタイプとモーション補償ネットワークを提案する。
ドメイン適応のためのテキスト画像比較を用いて,CLIPをマルチモーダルな複数ショットアクション認識に使用する。
また、隣接するフレームの2方向の差分特徴を運動特徴として用いて、ネットワークに運動力学を組み込む。
- 参考スコア(独自算出の注目度): 11.768136716316482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, few-shot action recognition has significantly progressed by
learning the feature discriminability and designing suitable comparison
methods. Still, there are the following restrictions. (a) Previous works are
mainly based on visual mono-modal. Although some multi-modal works use labels
as supplementary to construct prototypes of support videos, they can not use
this information for query videos. The labels are not used efficiently. (b)
Most of the works ignore the motion feature of video, although the motion
features are essential for distinguishing. We proposed a Consistency Prototype
and Motion Compensation Network(CLIP-CP$M^2$C) to address these issues.
Firstly, we use the CLIP for multi-modal few-shot action recognition with the
text-image comparison for domain adaption. Secondly, in order to make the
amount of information between the prototype and the query more similar, we
propose a novel method to compensate for the text(prompt) information of query
videos when text(prompt) does not exist, which depends on a Consistency Loss.
Thirdly, we use the differential features of the adjacent frames in two
directions as the motion features, which explicitly embeds the network with
motion dynamics. We also apply the Consistency Loss to the motion features.
Extensive experiments on standard benchmark datasets demonstrate that the
proposed method can compete with state-of-the-art results. Our code is
available at the URL: https://github.com/xxx/xxx.git.
- Abstract(参考訳): 近年,特徴識別性を学習し,適切な比較手法を設計することで,アクション認識が著しく進歩している。
ただし、以下の制限がある。
(a)前作は主に視覚的モノモーダルに基づく。
マルチモーダルな作品の中には、サポートビデオのプロトタイプを構築するための補助としてラベルを使用するものもあるが、この情報はクエリビデオには使用できない。
ラベルは効率的には使われない。
(b)ほとんどの作品では動画の動作特徴は無視されているが、動作特徴は区別に不可欠である。
これらの問題に対処するために、一貫性プロトタイプと運動補償ネットワーク(CLIP-CP$M^2$C)を提案した。
まず、CLIPをマルチモーダルな複数ショットのアクション認識に使用し、ドメイン適応のテキスト画像比較を行う。
第2に,プロトタイプとクエリ間の情報量をより類似させるため,テキスト(prompt)が存在しない場合,クエリビデオのテキスト(prompt)情報を補う新しい手法を提案する。
第3に,隣り合うフレームの2方向の差動特性を動作特徴として用い,ネットワークに動きのダイナミクスを明示的に埋め込む。
また,動きの特徴に一貫性の損失を適用する。
標準ベンチマークデータセットに対する大規模な実験により,提案手法が最先端の結果と競合することを示す。
私たちのコードはURLで利用可能です。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition [36.426688592783975]
MVP-Shotは、セマンティック関連アクション機能をマルチ速度レベルで学習し、調整するフレームワークである。
MVFAモジュールは、サポートからのフィーチャと、異なる速度スケールのクエリビデオの類似度を測定する。
PSTモジュールは、チャネルと時間領域の機能相互作用を通じて、速度調整されたテキスト情報をビデオ機能に注入する。
論文 参考訳(メタデータ) (2024-05-03T13:10:16Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文 参考訳(メタデータ) (2021-04-20T04:47:04Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。