論文の概要: Video Action Recognition with Attentive Semantic Units
- arxiv url: http://arxiv.org/abs/2303.09756v1
- Date: Fri, 17 Mar 2023 03:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:51:45.258109
- Title: Video Action Recognition with Attentive Semantic Units
- Title(参考訳): 注意的意味単位を用いたビデオ行動認識
- Authors: Yifei Chen, Dapeng Chen, Ruijin Liu, Hao Li, Wei Peng
- Abstract要約: アクションラベルの後ろに隠れているセマンティックユニット()を利用して、より正確なアクション認識を行います。
視覚言語モデル(VLM)の視覚枝にマルチリージョンモジュール(MRA)を導入する。
完全教師付き学習では,Kinetics-400では87.8%の精度でトップ1の精度を達成した。
- 参考スコア(独自算出の注目度): 25.30773056612109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Language Models (VLMs) have significantly advanced action video
recognition. Supervised by the semantics of action labels, recent works adapt
the visual branch of VLMs to learn video representations. Despite the
effectiveness proved by these works, we believe that the potential of VLMs has
yet to be fully harnessed. In light of this, we exploit the semantic units (SU)
hiding behind the action labels and leverage their correlations with
fine-grained items in frames for more accurate action recognition. SUs are
entities extracted from the language descriptions of the entire action set,
including body parts, objects, scenes, and motions. To further enhance the
alignments between visual contents and the SUs, we introduce a multi-region
module (MRA) to the visual branch of the VLM. The MRA allows the perception of
region-aware visual features beyond the original global feature. Our method
adaptively attends to and selects relevant SUs with visual features of frames.
With a cross-modal decoder, the selected SUs serve to decode spatiotemporal
video representations. In summary, the SUs as the medium can boost
discriminative ability and transferability. Specifically, in fully-supervised
learning, our method achieved 87.8\% top-1 accuracy on Kinetics-400. In K=2
few-shot experiments, our method surpassed the previous state-of-the-art by
+7.1% and +15.0% on HMDB-51 and UCF-101, respectively.
- Abstract(参考訳): VLM(Visual-Language Models)は、かなり高度なアクションビデオ認識を持つ。
アクションラベルのセマンティクスによって監督された最近の研究は、ビデオ表現を学ぶためにVLMの視覚的分岐に適応している。
これらの研究によって証明された効果にもかかわらず、我々はVLMの可能性はまだ十分に活用されていないと考えている。
そこで我々は,アクションラベルの裏側に隠された意味単位(SU)を活用し,フレーム内の細粒度アイテムとの相関を利用してより正確なアクション認識を行う。
SUは、ボディパーツ、オブジェクト、シーン、モーションを含むアクションセット全体の言語記述から抽出されたエンティティである。
視覚コンテンツとSUのアライメントをさらに強化するため,VLMの視覚枝にマルチリージョンモジュール(MRA)を導入する。
mraは、元のグローバル機能を超えた、地域対応の視覚特徴の認識を可能にする。
本手法は,フレームの視覚的特徴と関連するsusを適応的に対応・選択する。
クロスモーダルデコーダにより、選択されたSUは時空間ビデオ表現をデコードする。
要約すると、媒体としてのSUは差別能力と伝達可能性を高めることができる。
具体的には,フル教師付き学習において,Kinetics-400で87.8\%のTop-1精度を達成した。
K=2小ショット実験では, HMDB-51 と UCF-101 で, 従来手法を+7.1%, +15.0% で上回った。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition [16.828560953073495]
本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。
我々は各フレームのエンティティ・ツー・リージョンのアライメントを利用して、領域認識画像の埋め込みをオフラインで構築したテキストコーパスにマッチングすることでアライメントを実現する。
ALTは計算コストを著しく低く保ちながら、競争性能を示す。
論文 参考訳(メタデータ) (2023-11-27T08:32:28Z) - MOFO: MOtion FOcused Self-Supervision for Video Understanding [11.641926922266347]
自己教師付き学習技術は、ラベルのないビデオから視覚表現を学習する際、優れた結果を生んでいる。
動作認識のための教師あり学習技術における動作の重要性にもかかわらず、SSL法はビデオ内の動作情報を明示的に考慮しないことが多い。
動作認識のためのビデオの動作領域に表現学習を集中させる新しいSSL手法MOFOを提案する。
論文 参考訳(メタデータ) (2023-08-23T22:03:57Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - MoDist: Motion Distillation for Self-supervised Video Representation
Learning [27.05772951598066]
MoDistは、モーション情報を自己教師付きビデオ表現に蒸留する新しい方法である。
我々は,MoDistがフォアグラウンドの動作領域をより重視し,下流のタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2021-06-17T17:57:11Z) - Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文 参考訳(メタデータ) (2020-06-28T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。