Fugu-MT 論文翻訳(概要): Temporal Transformer Networks with Self-Supervision for Action Recognition

論文の概要: Temporal Transformer Networks with Self-Supervision for Action Recognition

arxiv url: http://arxiv.org/abs/2112.07338v1
Date: Tue, 14 Dec 2021 12:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-15 16:02:13.243433
Title: Temporal Transformer Networks with Self-Supervision for Action Recognition
Title（参考訳）: 行動認識のための自己監督型時間変換器ネットワーク
Authors: Yongkang Zhang, Jun Li, Guoming Wu, Han Zhang, Zhiping Shi, Zhaoxun Liu, Zizhang Wu, Na Jiang
Abstract要約: 自己監督型時変変器ネットワーク(TTSN)について紹介する。 TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
参考スコア（独自算出の注目度）: 13.00827959393591
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, 2D Convolutional Networks-based video action recognition has encouragingly gained wide popularity; However, constrained by the lack of long-range non-linear temporal relation modeling and reverse motion information modeling, the performance of existing models is, therefore, undercut seriously. To address this urgent problem, we introduce a startling Temporal Transformer Network with Self-supervision (TTSN). Our high-performance TTSN mainly consists of a temporal transformer module and a temporal sequence self-supervision module. Concisely speaking, we utilize the efficient temporal transformer module to model the non-linear temporal dependencies among non-local frames, which significantly enhances complex motion feature representations. The temporal sequence self-supervision module we employ unprecedentedly adopts the streamlined strategy of "random batch random channel" to reverse the sequence of video frames, allowing robust extractions of motion information representation from inversed temporal dimensions and improving the generalization capability of the model. Extensive experiments on three widely used datasets (HMDB51, UCF101, and Something-something V1) have conclusively demonstrated that our proposed TTSN is promising as it successfully achieves state-of-the-art performance for action recognition.
Abstract（参考訳）: 近年,2次元畳み込みネットワークを用いた映像行動認識が広く普及しているが,長距離非線形時間関係モデリングやリバースモーション情報モデリングが欠如しているため,既存のモデルの性能が著しく低下している。この緊急問題に対処するため,TTSN(Singling Temporal Transformer Network with Self-supervision)を導入する。我々の高性能TTSNは主に時間変圧器モジュールと時間列自己スーパービジョンモジュールからなる。簡潔な言い方をすれば,非局所フレーム間の非線形時間依存性をモデル化するために,効率的な時間的トランスフォーマーモジュールを用いる。前例のない時間系列自己スーパービジョンモジュールは,映像フレームのシーケンスを反転させる「ランダムバッチランダムチャネル」の合理化戦略を採用し,逆時間次元からのロバストな動き情報表現抽出を可能にし,モデルの一般化能力を向上させる。広く使われている3つのデータセット(HMDB51、UCF101、Some-something V1)に対する大規模な実験は、我々の提案するTTSNが動作認識の最先端性能を達成するために有望であることを確定的に証明した。

関連論文リスト

Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文参考訳（メタデータ） (2025-04-07T22:21:54Z)
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文参考訳（メタデータ） (2025-03-25T05:51:14Z)
Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。 CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文参考訳（メタデータ） (2024-08-26T12:59:32Z)
TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文参考訳（メタデータ） (2024-08-20T09:40:08Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting [6.434378359932152]
既存のTransformerベースのモデルを,(1)モデル構造の変更,(2)入力データの変更の2つのタイプに分類する。我々は、シーケンシャル情報と時間情報の両方をフルにキャプチャするSequence and Temporal Convolutional Network(STCN)を導入する$textbfsTransformer$を提案する。我々は,線形モデルと既存予測モデルとを長期時系列予測で比較し,新たな成果を得た。
論文参考訳（メタデータ） (2024-08-19T06:23:41Z)
Transformer-based Video Saliency Prediction with High Temporal Dimension Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文参考訳（メタデータ） (2024-01-15T20:09:56Z)
F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文参考訳（メタデータ） (2023-12-06T12:34:47Z)
FormerTime: Hierarchical Multi-Scale Representations for Multivariate Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。 1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文参考訳（メタデータ） (2023-02-20T07:46:14Z)
Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。 LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文参考訳（メタデータ） (2023-01-05T13:59:29Z)
Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文参考訳（メタデータ） (2022-02-24T14:20:04Z)
Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文参考訳（メタデータ） (2021-06-17T02:30:26Z)
TDN: Temporal Difference Networks for Efficient Action Recognition [31.922001043405924]
本稿では,時間差分ネットワーク(TDN)と呼ばれる新しいビデオアーキテクチャを提案する。我々のTDNの中核は、時間差演算子を明示的に活用することで効率的な時間差モジュール(TDM)を考案することである。我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
論文参考訳（メタデータ） (2020-12-18T06:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。