論文の概要: Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition
- arxiv url: http://arxiv.org/abs/2102.07092v1
- Date: Sun, 14 Feb 2021 07:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:44:23.599777
- Title: Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition
- Title(参考訳): 行動認識のための汎用運動としての空間と時間の自己相似性
- Authors: Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho
- Abstract要約: ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
- 参考スコア(独自算出の注目度): 42.175450800733785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal convolution often fails to learn motion dynamics in videos
and thus an effective motion representation is required for video understanding
in the wild. In this paper, we propose a rich and robust motion representation
based on spatio-temporal self-similarity (STSS). Given a sequence of frames,
STSS represents each local region as similarities to its neighbors in space and
time. By converting appearance features into relational values, it enables the
learner to better recognize structural patterns in space and time. We leverage
the whole volume of STSS and let our model learn to extract an effective motion
representation from it. The proposed neural block, dubbed SELFY, can be easily
inserted into neural architectures and trained end-to-end without additional
supervision. With a sufficient volume of the neighborhood in space and time, it
effectively captures long-term interaction and fast motion in the video,
leading to robust action recognition. Our experimental analysis demonstrates
its superiority over previous methods for motion modeling as well as its
complementarity to spatio-temporal features from direct convolution. On the
standard action recognition benchmarks, Something-Something-V1 & V2, Diving-48,
and FineGym, the proposed method achieves the state-of-the-art results.
- Abstract(参考訳): 時空間畳み込みはビデオのモーションダイナミクスを学習できないことが多いため、野生のビデオ理解には効果的なモーション表現が必要です。
本稿では,時空間的自己相似性(STSS)に基づくリッチかつ堅牢な動き表現を提案する。
フレームのシーケンスを与えられたSTSSは、スペースと時間の隣人との類似性として各ローカル地域を表します。
外観特徴を関係値に変換することにより、学習者は空間と時間の構造パターンをよりよく認識することができる。
stsのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させることを学ばせます。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
空間と時間の十分な量で、それは効果的にビデオ内の長期的な相互作用と速い動きをキャプチャし、堅牢なアクション認識につながります。
実験的な解析により,従来の運動モデルよりも優れていることと,直接畳み込みによる時空間的特徴との相補性を実証した。
標準動作認識ベンチマークであるSomething-V1 & V2, Diving-48, FineGymでは, 提案手法は最先端の結果が得られる。
関連論文リスト
- Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - Behavior Recognition Based on the Integration of Multigranular Motion
Features [17.052997301790693]
マルチグラニュラ(IMG)運動特徴の統合に基づく新しい行動認識手法を提案する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T02:05:26Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。