論文の概要: Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval
- arxiv url: http://arxiv.org/abs/2101.00820v8
- Date: Wed, 17 Mar 2021 03:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 22:58:50.900310
- Title: Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval
- Title(参考訳): ビデオ行動認識と検索のための時間的コントラストグラフ学習
- Authors: Yang Liu, Keze Wang, Haoyuan Lan, Liang Lin
- Abstract要約: 本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
- 参考スコア(独自算出の注目度): 83.56444443849679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attempt to fully discover the temporal diversity and chronological
characteristics for self-supervised video representation learning, this work
takes advantage of the temporal dependencies within videos and further proposes
a novel self-supervised method named Temporal Contrastive Graph Learning
(TCGL). In contrast to the existing methods that ignore modeling elaborate
temporal dependencies, our TCGL roots in a hybrid graph contrastive learning
strategy to jointly regard the inter-snippet and intra-snippet temporal
dependencies as self-supervision signals for temporal representation learning.
To model multi-scale temporal dependencies, our TCGL integrates the prior
knowledge about the frame and snippet orders into graph structures, i.e., the
intra-/inter- snippet temporal contrastive graphs. By randomly removing edges
and masking nodes of the intra-snippet graphs or inter-snippet graphs, our TCGL
can generate different correlated graph views. Then, specific contrastive
learning modules are designed to maximize the agreement between nodes in
different views. To adaptively learn the global context representation and
recalibrate the channel-wise features, we introduce an adaptive video snippet
order prediction module, which leverages the relational knowledge among video
snippets to predict the actual snippet orders. Experimental results demonstrate
the superiority of our TCGL over the state-of-the-art methods on large-scale
action recognition and video retrieval benchmarks.
- Abstract(参考訳): 自己教師付きビデオ表現学習における時間的多様性と時間的特徴を十分に把握するために,ビデオ内の時間的依存関係を活用し,時間的コントラストグラフ学習(TCGL)という新たな自己教師付き手法を提案する。
複雑な時間的依存関係のモデリングを無視する既存の手法とは対照的に、私たちのtcglは、時間的表現学習のための自己スーパービジョン信号として、スニペット間およびスニペット内時間的依存関係を共同で考慮するハイブリッドグラフコントラスト学習戦略に根ざしています。
マルチスケールの時間的依存をモデル化するために、TCGLはフレームとスニペットの順序に関する事前の知識をグラフ構造、すなわち、スニペット内の時間的コントラストグラフに統合する。
スニペットグラフやスニペットグラフのエッジやマスキングノードをランダムに除去することで、tcglは異なる相関グラフビューを生成することができる。
次に、異なるビューにおけるノード間の合意を最大化するために、特定のコントラスト学習モジュールを設計する。
グローバルコンテキスト表現を適応的に学習し,チャネル毎の機能を再調整するために,映像スニペット間の関係知識を利用して実際のスニペット順序を予測する適応型ビデオスニペット順序予測モジュールを提案する。
大規模行動認識およびビデオ検索ベンチマークにおける最先端手法よりも,TCGLの方が優れていることを示す実験結果が得られた。
関連論文リスト
- Temporal Graph Representation Learning with Adaptive Augmentation
Contrastive [12.18909612212823]
時間グラフ表現学習は、時間情報を取得するために低次元の動的ノード埋め込みを生成することを目的としている。
本稿では,適応拡張コントラスト(TGAC)モデルを用いたテンポラルグラフ表現学習を提案する。
実ネットワークにおける実験により,提案手法が他の時間グラフ表現学習法より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T11:21:16Z) - Time-aware Graph Structure Learning via Sequence Prediction on Temporal
Graphs [10.034072706245544]
時系列グラフのシーケンス予測による時間認識型グラフ構造学習(TGSL)手法を提案する。
特に、タイムアウェアなコンテキスト埋め込みを予測し、Gumble-Top-Kを使用して、このコンテキスト埋め込みに最も近い候補エッジを選択する。
時間リンク予測ベンチマークの実験は、TGSLがTGATやGraphMixerのような一般的なTGNに対して大きな利益をもたらすことを示した。
論文 参考訳(メタデータ) (2023-06-13T11:34:36Z) - Deep Temporal Graph Clustering [77.02070768950145]
深部時間グラフクラスタリング(GC)のための汎用フレームワークを提案する。
GCは、時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合するディープクラスタリング技術を導入している。
我々のフレームワークは、既存の時間グラフ学習手法の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-18T06:17:50Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TodyNet: Temporal Dynamic Graph Neural Network for Multivariate Time
Series Classification [6.76723360505692]
未定義のグラフ構造を使わずに隠蔽時間依存を抽出できる新しい時間的動的グラフネットワーク(TodyNet)を提案する。
26のUEAベンチマークデータセットの実験は、提案されたTodyNetがMTSCタスクで既存のディープラーニングベースのメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-04-11T09:21:28Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。