論文の概要: ActionCLIP: A New Paradigm for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2109.08472v1
- Date: Fri, 17 Sep 2021 11:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:38:50.211565
- Title: ActionCLIP: A New Paradigm for Video Action Recognition
- Title(参考訳): ActionCLIP: ビデオアクション認識のための新しいパラダイム
- Authors: Mengmeng Wang, Jiazheng Xing and Yong Liu
- Abstract要約: ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 14.961103794667341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The canonical approach to video action recognition dictates a neural model to
do a classic and standard 1-of-N majority vote task. They are trained to
predict a fixed set of predefined categories, limiting their transferable
ability on new datasets with unseen concepts. In this paper, we provide a new
perspective on action recognition by attaching importance to the semantic
information of label texts rather than simply mapping them into numbers.
Specifically, we model this task as a video-text matching problem within a
multimodal learning framework, which strengthens the video representation with
more semantic language supervision and enables our model to do zero-shot action
recognition without any further labeled data or parameters requirements.
Moreover, to handle the deficiency of label texts and make use of tremendous
web data, we propose a new paradigm based on this multimodal learning framework
for action recognition, which we dub "pre-train, prompt and fine-tune". This
paradigm first learns powerful representations from pre-training on a large
amount of web image-text or video-text data. Then it makes the action
recognition task to act more like pre-training problems via prompt engineering.
Finally, it end-to-end fine-tunes on target datasets to obtain strong
performance. We give an instantiation of the new paradigm, ActionCLIP, which
not only has superior and flexible zero-shot/few-shot transfer ability but also
reaches a top performance on general action recognition task, achieving 83.8%
top-1 accuracy on Kinetics-400 with a ViT-B/16 as the backbone. Code is
available at https://github.com/sallymmx/ActionCLIP.git
- Abstract(参考訳): ビデオアクション認識の標準的アプローチは、古典的かつ標準的な1対nの投票タスクを神経モデルに指示する。
それらは事前に定義されたカテゴリの固定セットを予測するように訓練され、見当たらない概念を持つ新しいデータセットの転送能力を制限する。
本稿では,単に数にマッピングするのではなく,ラベルテキストの意味情報に重きを置くことにより,行動認識の新しい視点を提案する。
具体的には、このタスクをマルチモーダル学習フレームワーク内のビデオテキストマッチング問題としてモデル化し、よりセマンティック言語による映像表現を強化し、さらなるラベル付きデータやパラメータの要求なしにゼロショットアクション認識を可能にする。
さらに,ラベルテキストの欠如に対処し,膨大なWebデータを活用するために,この多モーダル学習フレームワークに基づく行動認識手法を提案し,これを「事前学習,即時学習,微調整」と呼ぶ。
このパラダイムはまず、大量のWeb画像テキストやビデオテキストデータを事前学習することで、強力な表現を学習する。
そして、アクション認識タスクは、プロンプトエンジニアリングによる事前学習問題のように振る舞う。
最後に、ターゲットデータセットのエンドツーエンドの微調整により、強力なパフォーマンスが得られる。
本稿では,新しいパラダイムであるActionCLIPのインスタンス化について述べる。これは,優れたゼロショット/フェーショット転送能力を持つだけでなく,一般的なアクション認識タスクでも最高性能に達し,VT-B/16をバックボーンとしてKinetics-400上で83.8%の精度を実現している。
コードはhttps://github.com/sallymmx/ActionCLIP.gitで入手できる。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception [1.5741307755393597]
本稿では,フレームレベルの認識に弱いラベルを持つビデオベースの行動認識モデルを訓練するための新しい学習フレームワークを提案する。
弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。
また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T09:47:41Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Generative Action Description Prompts for Skeleton-based Action
Recognition [15.38417530693649]
本稿では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。
本研究では,行動の身体部分の動きのテキスト記述を自動的に生成する知識エンジンとして,事前学習された大規模言語モデルを用いる。
提案手法は,推定コストを伴わずに,様々なベースラインモデルに対して顕著な改善を実現する。
論文 参考訳(メタデータ) (2022-08-10T12:55:56Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。