論文の概要: Video Action Recognition with Attentive Semantic Units
- arxiv url: http://arxiv.org/abs/2303.09756v1
- Date: Fri, 17 Mar 2023 03:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:51:45.258109
- Title: Video Action Recognition with Attentive Semantic Units
- Title(参考訳): 注意的意味単位を用いたビデオ行動認識
- Authors: Yifei Chen, Dapeng Chen, Ruijin Liu, Hao Li, Wei Peng
- Abstract要約: アクションラベルの後ろに隠れているセマンティックユニット()を利用して、より正確なアクション認識を行います。
視覚言語モデル(VLM)の視覚枝にマルチリージョンモジュール(MRA)を導入する。
完全教師付き学習では,Kinetics-400では87.8%の精度でトップ1の精度を達成した。
- 参考スコア(独自算出の注目度): 25.30773056612109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Language Models (VLMs) have significantly advanced action video
recognition. Supervised by the semantics of action labels, recent works adapt
the visual branch of VLMs to learn video representations. Despite the
effectiveness proved by these works, we believe that the potential of VLMs has
yet to be fully harnessed. In light of this, we exploit the semantic units (SU)
hiding behind the action labels and leverage their correlations with
fine-grained items in frames for more accurate action recognition. SUs are
entities extracted from the language descriptions of the entire action set,
including body parts, objects, scenes, and motions. To further enhance the
alignments between visual contents and the SUs, we introduce a multi-region
module (MRA) to the visual branch of the VLM. The MRA allows the perception of
region-aware visual features beyond the original global feature. Our method
adaptively attends to and selects relevant SUs with visual features of frames.
With a cross-modal decoder, the selected SUs serve to decode spatiotemporal
video representations. In summary, the SUs as the medium can boost
discriminative ability and transferability. Specifically, in fully-supervised
learning, our method achieved 87.8\% top-1 accuracy on Kinetics-400. In K=2
few-shot experiments, our method surpassed the previous state-of-the-art by
+7.1% and +15.0% on HMDB-51 and UCF-101, respectively.
- Abstract(参考訳): VLM(Visual-Language Models)は、かなり高度なアクションビデオ認識を持つ。
アクションラベルのセマンティクスによって監督された最近の研究は、ビデオ表現を学ぶためにVLMの視覚的分岐に適応している。
これらの研究によって証明された効果にもかかわらず、我々はVLMの可能性はまだ十分に活用されていないと考えている。
そこで我々は,アクションラベルの裏側に隠された意味単位(SU)を活用し,フレーム内の細粒度アイテムとの相関を利用してより正確なアクション認識を行う。
SUは、ボディパーツ、オブジェクト、シーン、モーションを含むアクションセット全体の言語記述から抽出されたエンティティである。
視覚コンテンツとSUのアライメントをさらに強化するため,VLMの視覚枝にマルチリージョンモジュール(MRA)を導入する。
mraは、元のグローバル機能を超えた、地域対応の視覚特徴の認識を可能にする。
本手法は,フレームの視覚的特徴と関連するsusを適応的に対応・選択する。
クロスモーダルデコーダにより、選択されたSUは時空間ビデオ表現をデコードする。
要約すると、媒体としてのSUは差別能力と伝達可能性を高めることができる。
具体的には,フル教師付き学習において,Kinetics-400で87.8\%のTop-1精度を達成した。
K=2小ショット実験では, HMDB-51 と UCF-101 で, 従来手法を+7.1%, +15.0% で上回った。
関連論文リスト
- SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised
Temporal Action Segmentation [57.9100732918114]
本稿では,アクションセグメンテーションのための強力なフレームワイズ表現を抽出するために,近隣環境対応ユニット(SMC-NCA)を用いた新しいマルチレベルコントラスト方式を提案する。
我々のSMCは3つのベンチマークで他の最先端の手法よりも優れており、編集距離と精度の点で最大17.8%と12.6%の改善を提供している。
また,提案手法の有効性をパーキンソン病マウス行動データセットに示す。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Align before Adapt: Leveraging Entity-to-Region Alignments for
Generalizable Video Action Recognition [17.831809435927852]
本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。
ALTは、計算コストを著しく低くしながら、競争性能と優れた一般化性を達成する。
完全に教師されたシナリオでは、4947 GFLOPでKinetics-400の88.1%のトップ-1の精度を達成した。
論文 参考訳(メタデータ) (2023-11-27T08:32:28Z) - Vamos: Versatile Action Models for Video Understanding [25.03993572202632]
本稿では、個別のアクションラベルや自由形式のビデオキャプションなど、テキストベースの表現を再検討することを提案する。
そこで我々は,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
テキストベースの表現は、すべてのベンチマークにおいて一貫して競合性能を達成し、視覚的な埋め込みは、パフォーマンス改善に限界を与えない。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - MoDist: Motion Distillation for Self-supervised Video Representation
Learning [27.05772951598066]
MoDistは、モーション情報を自己教師付きビデオ表現に蒸留する新しい方法である。
我々は,MoDistがフォアグラウンドの動作領域をより重視し,下流のタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2021-06-17T17:57:11Z) - Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文 参考訳(メタデータ) (2020-06-28T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。