論文の概要: Flatten: Video Action Recognition is an Image Classification task
- arxiv url: http://arxiv.org/abs/2408.09220v1
- Date: Sat, 17 Aug 2024 14:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:39:37.435832
- Title: Flatten: Video Action Recognition is an Image Classification task
- Title(参考訳): Flatten: ビデオアクション認識は画像分類タスク
- Authors: Junlin Chen, Chengcheng Xu, Yangfan Xu, Jian Yang, Jun Li, Zhiping Shi,
- Abstract要約: 新たなビデオ表現アーキテクチャであるFlattenは、プラグイン・アンド・プレイモジュールとして機能し、任意の画像理解ネットワークにシームレスに統合できる。
一般的に使用されるデータセットの実験では、Flattenの埋め込みはオリジナルのモデルよりも大幅なパフォーマンス向上をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 15.518011818978074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, video action recognition, as a fundamental task in the field of video understanding, has been deeply explored by numerous researchers.Most traditional video action recognition methods typically involve converting videos into three-dimensional data that encapsulates both spatial and temporal information, subsequently leveraging prevalent image understanding models to model and analyze these data. However,these methods have significant drawbacks. Firstly, when delving into video action recognition tasks, image understanding models often need to be adapted accordingly in terms of model architecture and preprocessing for these spatiotemporal tasks; Secondly, dealing with high-dimensional data often poses greater challenges and incurs higher time costs compared to its lower-dimensional counterparts.To bridge the gap between image-understanding and video-understanding tasks while simplifying the complexity of video comprehension, we introduce a novel video representation architecture, Flatten, which serves as a plug-and-play module that can be seamlessly integrated into any image-understanding network for efficient and effective 3D temporal data modeling.Specifically, by applying specific flattening operations (e.g., row-major transform), 3D spatiotemporal data is transformed into 2D spatial information, and then ordinary image understanding models are used to capture temporal dynamic and spatial semantic information, which in turn accomplishes effective and efficient video action recognition. Extensive experiments on commonly used datasets (Kinetics-400, Something-Something v2, and HMDB-51) and three classical image classification models (Uniformer, SwinV2, and ResNet), have demonstrated that embedding Flatten provides a significant performance improvements over original model.
- Abstract(参考訳): 近年,映像理解の分野における基本的な課題である映像行動認識は,多くの研究者によって深く研究されており,従来の映像行動認識手法では,映像を空間的・時間的両方の情報をカプセル化した3次元データに変換し,それらのデータをモデル化・解析するために一般的な画像理解モデルを活用するのが一般的である。
しかし、これらの手法には大きな欠点がある。
まず、映像行動認識タスクを探索する際には、これらの時空間的タスクに対して、モデルアーキテクチャや前処理の観点から、画像理解モデルを適用する必要がある。第2に、高次元データを扱うと、より大きな課題が発生し、より低次元のタスクよりも高い時間コストが生じることが多い。映像理解の複雑さを簡素化しながら、画像理解と映像理解の間のギャップを埋めるために、ビデオ認識を効果的かつ効率的な3次元時間的データモデリングのために、任意の画像理解ネットワークにシームレスに統合可能なプラグイン・アンド・プレイ・モジュールとして機能するFlattenを導入する。
一般的に使われているデータセット(Kinetics-400、Something v2、HMDB-51)と3つの古典的な画像分類モデル(Uniformer、SwinV2、ResNet)に関する大規模な実験により、Flattenの埋め込みはオリジナルのモデルよりも大幅に性能が向上することを示した。
関連論文リスト
- AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Video 3D Sampling for Self-supervised Representation Learning [13.135859819622855]
本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
本実装では,3次元のサンプリングを組み合わせ,空間および時間におけるスケールおよび投影変換を提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良し,良好なマージンが得られた。
論文 参考訳(メタデータ) (2021-07-08T03:22:06Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。