論文の概要: Temporal Transformer Networks with Self-Supervision for Action
Recognition
- arxiv url: http://arxiv.org/abs/2112.07338v1
- Date: Tue, 14 Dec 2021 12:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:02:13.243433
- Title: Temporal Transformer Networks with Self-Supervision for Action
Recognition
- Title(参考訳): 行動認識のための自己監督型時間変換器ネットワーク
- Authors: Yongkang Zhang, Jun Li, Guoming Wu, Han Zhang, Zhiping Shi, Zhaoxun
Liu, Zizhang Wu, Na Jiang
- Abstract要約: 自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
- 参考スコア(独自算出の注目度): 13.00827959393591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, 2D Convolutional Networks-based video action recognition has
encouragingly gained wide popularity; However, constrained by the lack of
long-range non-linear temporal relation modeling and reverse motion information
modeling, the performance of existing models is, therefore, undercut seriously.
To address this urgent problem, we introduce a startling Temporal Transformer
Network with Self-supervision (TTSN). Our high-performance TTSN mainly consists
of a temporal transformer module and a temporal sequence self-supervision
module. Concisely speaking, we utilize the efficient temporal transformer
module to model the non-linear temporal dependencies among non-local frames,
which significantly enhances complex motion feature representations. The
temporal sequence self-supervision module we employ unprecedentedly adopts the
streamlined strategy of "random batch random channel" to reverse the sequence
of video frames, allowing robust extractions of motion information
representation from inversed temporal dimensions and improving the
generalization capability of the model. Extensive experiments on three widely
used datasets (HMDB51, UCF101, and Something-something V1) have conclusively
demonstrated that our proposed TTSN is promising as it successfully achieves
state-of-the-art performance for action recognition.
- Abstract(参考訳): 近年,2次元畳み込みネットワークを用いた映像行動認識が広く普及しているが,長距離非線形時間関係モデリングやリバースモーション情報モデリングが欠如しているため,既存のモデルの性能が著しく低下している。
この緊急問題に対処するため,TTSN(Singling Temporal Transformer Network with Self-supervision)を導入する。
我々の高性能TTSNは主に時間変圧器モジュールと時間列自己スーパービジョンモジュールからなる。
簡潔な言い方をすれば,非局所フレーム間の非線形時間依存性をモデル化するために,効率的な時間的トランスフォーマーモジュールを用いる。
前例のない時間系列自己スーパービジョンモジュールは,映像フレームのシーケンスを反転させる「ランダムバッチランダムチャネル」の合理化戦略を採用し,逆時間次元からのロバストな動き情報表現抽出を可能にし,モデルの一般化能力を向上させる。
広く使われている3つのデータセット(HMDB51、UCF101、Some-something V1)に対する大規模な実験は、我々の提案するTTSNが動作認識の最先端性能を達成するために有望であることを確定的に証明した。
関連論文リスト
- Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文 参考訳(メタデータ) (2024-01-15T20:09:56Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [17.611912733951662]
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、時間的依存をモデル化する能力で有名である。
本稿では,バニラRNNの時間的モデリング能力を高めるために,DMU(Delayed Memory Unit)を提案する。
提案したDMUは、広範囲の逐次モデリングタスクにおいて優れた時間的モデリング能力を示す。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - TDN: Temporal Difference Networks for Efficient Action Recognition [31.922001043405924]
本稿では,時間差分ネットワーク(TDN)と呼ばれる新しいビデオアーキテクチャを提案する。
我々のTDNの中核は、時間差演算子を明示的に活用することで効率的な時間差モジュール(TDM)を考案することである。
我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
論文 参考訳(メタデータ) (2020-12-18T06:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。