論文の概要: ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2308.03908v1
- Date: Mon, 7 Aug 2023 20:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:55:23.451093
- Title: ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition
- Title(参考訳): ViLP:映像行動認識のための視覚・言語・詩埋め込みを用いた知識探索
- Authors: Soumyabrata Chaudhuri and Saumik Bhattacharya
- Abstract要約: 本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
- 参考スコア(独自算出の注目度): 4.36572039512405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Action Recognition (VAR) is a challenging task due to its inherent
complexities. Though different approaches have been explored in the literature,
designing a unified framework to recognize a large number of human actions is
still a challenging problem. Recently, Multi-Modal Learning (MML) has
demonstrated promising results in this domain. In literature, 2D skeleton or
pose modality has often been used for this task, either independently or in
conjunction with the visual information (RGB modality) present in videos.
However, the combination of pose, visual information, and text attributes has
not been explored yet, though text and pose attributes independently have been
proven to be effective in numerous computer vision tasks. In this paper, we
present the first pose augmented Vision-language model (VLM) for VAR. Notably,
our scheme achieves an accuracy of 92.81% and 73.02% on two popular human video
action recognition benchmark datasets, UCF-101 and HMDB-51, respectively, even
without any video data pre-training, and an accuracy of 96.11% and 75.75% after
kinetics pre-training.
- Abstract(参考訳): ビデオ行動認識(VAR)は、その固有の複雑さのために難しい課題である。
文献では様々なアプローチが検討されているが、多数の人間の行動を認識する統一された枠組みを設計することは依然として難しい問題である。
近年,Multi-Modal Learning (MML) がこの領域で有望な成果を示した。
文学において、2Dスケルトンやポーズのモダリティは、独立に、あるいはビデオに存在する視覚情報(RGBモダリティ)と組み合わせて、このタスクにしばしば使用される。
しかし、ポーズ、視覚情報、テキスト属性の組み合わせはまだ検討されていないが、テキスト属性とポーズ属性は多数のコンピュータビジョンタスクにおいて有効であることが証明されている。
本稿では,varのための最初のポーズ拡張視覚言語モデル(vlm)について述べる。
特に本手法は,ビデオデータの事前学習がなくても,2つの一般的なヒトビデオ行動認識ベンチマークデータセット ucf-101 と hmdb-51 において,92.81% と 73.02% の精度を実現し,速度論的事前学習後の精度は 96.11% と 75.75% である。
関連論文リスト
- Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos [2.3247413495885647]
我々は283,582本のTikTokビデオクリップを使用して、386のハッシュタグに分類し、ドメイン固有のアクション認識基盤モデルをトレーニングしている。
UCF101は99.05%、HMDB51は86.08%、Kinetics-400は85.51%、V2は74.27%である。
論文 参考訳(メタデータ) (2024-02-14T00:41:10Z) - AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual
Masked Autoencoder [3.8735222804007394]
視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。
本手法は,モーダリティコンテンツにおける音声とビデオの特徴の相補的な性質を実証することによる課題に対処する。
論文 参考訳(メタデータ) (2023-09-15T19:56:15Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Seeing the Pose in the Pixels: Learning Pose-Aware Representations in
Vision Transformers [1.8047694351309207]
視覚変換器(ViT)におけるポーズ認識表現学習のための2つの戦略を導入する。
Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。
第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。
論文 参考訳(メタデータ) (2023-06-15T17:58:39Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。