論文の概要: Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning
- arxiv url: http://arxiv.org/abs/2308.04828v1
- Date: Wed, 9 Aug 2023 09:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:11:00.820973
- Title: Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning
- Title(参考訳): 花見:動きのプロンプト学習による行動認識のためのCLIP適応
- Authors: Qiang Wang, Junlong Du, Ke Yan, Shouhong Ding
- Abstract要約: 対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
- 参考スコア(独自算出の注目度): 14.292812802621707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Contrastive Language-Image Pre-training (CLIP) has recently shown
remarkable generalization on "zero-shot" training and has applied to many
downstream tasks. We explore the adaptation of CLIP to achieve a more efficient
and generalized action recognition method. We propose that the key lies in
explicitly modeling the motion cues flowing in video frames. To that end, we
design a two-stream motion modeling block to capture motion and spatial
information at the same time. And then, the obtained motion cues are utilized
to drive a dynamic prompts learner to generate motion-aware prompts, which
contain much semantic information concerning human actions. In addition, we
propose a multimodal communication block to achieve a collaborative learning
and further improve the performance. We conduct extensive experiments on
HMDB-51, UCF-101, and Kinetics-400 datasets. Our method outperforms most
existing state-of-the-art methods by a significant margin on "few-shot" and
"zero-shot" training. We also achieve competitive performance on "closed-set"
training with extremely few trainable parameters and additional computational
costs.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示し、多くの下流タスクに適用している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
ビデオフレーム内を流れる動きの手がかりを明示的にモデル化することが鍵となる。
そこで我々は,動きと空間情報を同時にキャプチャする2ストリームモーションモデリングブロックを設計した。
そして、得られた動作手がかりを用いて、動的プロンプト学習者が人間の行動に関する多くの意味情報を含む動き認識プロンプトを生成する。
さらに,協調学習を実現するためのマルチモーダル通信ブロックを提案し,その性能をさらに向上させる。
我々はHMDB-51, UCF-101, Kinetics-400データセットについて広範な実験を行った。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
また,学習可能なパラメータや計算コストを極端に少なくし,クローズドセットトレーニングの競争力も達成した。
関連論文リスト
- PLAR: Prompt Learning for Action Recognition [56.57236976757388]
我々は,行動認識のためのプロンプト学習(PLAR)という新しい一般学習手法を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることで,アクションラベルを予測できるように設計されている。
我々は,空中マルチエージェントデータセットOkutamamの3.110-7.2%の精度向上と地上カメラ単一エージェントデータセットSomesome V2の1.0-3.6%の改善を観察した。
論文 参考訳(メタデータ) (2023-05-21T11:51:09Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [90.66285408745453]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において困難である。
ほとんどの最先端の手法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - MoQuad: Motion-focused Quadruple Construction for Video Contrastive
Learning [10.41936704731324]
本稿では,ビデオコントラスト学習における動作特徴の学習を促進するための,シンプルで効果的なサンプル構築戦略を提案する。
提案手法はMoQuad (Mo- Focus Quadruple Construction) と呼ばれ, 正試料と負試料の両方の外観と動きを巧みに妨害することにより, インスタンス識別を増強する。
単にMoQuadをSimCLRに適用することで、ダウンストリームタスクにおいて、最先端のアートよりも優れたパフォーマンスを達成できることが、広範な実験によって示されている。
論文 参考訳(メタデータ) (2022-12-21T09:26:40Z) - Temporal Contrastive Learning with Curriculum [19.442685015494316]
ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2022-09-02T00:12:05Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。