論文の概要: Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training
- arxiv url: http://arxiv.org/abs/2211.12748v1
- Date: Wed, 23 Nov 2022 07:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:13:52.663664
- Title: Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training
- Title(参考訳): 動的外観:共同訓練による行動認識のための映像表現
- Authors: Guoxi Huang, Adrian G. Bors
- Abstract要約: 本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
- 参考スコア(独自算出の注目度): 11.746833714322154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static appearance of video may impede the ability of a deep neural network to
learn motion-relevant features in video action recognition. In this paper, we
introduce a new concept, Dynamic Appearance (DA), summarizing the appearance
information relating to movement in a video while filtering out the static
information considered unrelated to motion. We consider distilling the dynamic
appearance from raw video data as a means of efficient video understanding. To
this end, we propose the Pixel-Wise Temporal Projection (PWTP), which projects
the static appearance of a video into a subspace within its original vector
space, while the dynamic appearance is encoded in the projection residual
describing a special motion pattern. Moreover, we integrate the PWTP module
with a CNN or Transformer into an end-to-end training framework, which is
optimized by utilizing multi-objective optimization algorithms. We provide
extensive experimental results on four action recognition benchmarks:
Kinetics400, Something-Something V1, UCF101 and HMDB51.
- Abstract(参考訳): ビデオの静的な出現は、ディープニューラルネットワークがビデオアクション認識の動作関連特徴を学習する能力を妨げる可能性がある。
本稿では,動画中の動きに関連する外観情報を要約し,動きに関係のないと考えられる静的情報をフィルタリングする動的外観(DA)という新しい概念を紹介する。
生のビデオデータからダイナミックな外観を蒸留して,映像理解の効率化を図る。
この目的のために,PWTP (Pixel-Wise Temporal Projection) を提案し,ビデオの静的な外観をベクトル空間内の部分空間に投影し,ダイナミックな外観を特殊な動きパターンを記述する投影残差に符号化する。
さらに,PWTPモジュールとCNNやTransformerをエンドツーエンドのトレーニングフレームワークに統合し,多目的最適化アルゴリズムを用いて最適化する。
Kinetics400, Something-Something V1, UCF101, HMDB51 の4つの行動認識ベンチマークについて実験を行った。
関連論文リスト
- Enhancing Bandwidth Efficiency for Video Motion Transfer Applications using Deep Learning Based Keypoint Prediction [4.60378493357739]
本稿では,モーショントランスファー対応ビデオアプリケーションにおける帯域幅削減のための,ディープラーニングに基づく新しい予測フレームワークを提案する。
リアルタイムアプリケーションでは,最大2倍の帯域幅削減を実現し,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2024-03-17T20:36:43Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。