論文の概要: Temporal Relational Modeling with Self-Supervision for Action
Segmentation
- arxiv url: http://arxiv.org/abs/2012.07508v1
- Date: Mon, 14 Dec 2020 13:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:43:38.247620
- Title: Temporal Relational Modeling with Self-Supervision for Action
Segmentation
- Title(参考訳): アクションセグメンテーションのための自己スーパービジョンによる時間関係モデリング
- Authors: Dong Wang, Di Hu, Xingjian Li, Dejing Dou
- Abstract要約: ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
- 参考スコア(独自算出の注目度): 38.62057004624234
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal relational modeling in video is essential for human action
understanding, such as action recognition and action segmentation. Although
Graph Convolution Networks (GCNs) have shown promising advantages in relation
reasoning on many tasks, it is still a challenge to apply graph convolution
networks on long video sequences effectively. The main reason is that large
number of nodes (i.e., video frames) makes GCNs hard to capture and model
temporal relations in videos. To tackle this problem, in this paper, we
introduce an effective GCN module, Dilated Temporal Graph Reasoning Module
(DTGRM), designed to model temporal relations and dependencies between video
frames at various time spans. In particular, we capture and model temporal
relations via constructing multi-level dilated temporal graphs where the nodes
represent frames from different moments in video. Moreover, to enhance temporal
reasoning ability of the proposed model, an auxiliary self-supervised task is
proposed to encourage the dilated temporal graph reasoning module to find and
correct wrong temporal relations in videos. Our DTGRM model outperforms
state-of-the-art action segmentation models on three challenging datasets:
50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset.
The code is available at https://github.com/redwang/DTGRM.
- Abstract(参考訳): ビデオにおける時間的関係モデリングは、アクション認識やアクションセグメンテーションといった人間の行動理解に不可欠である。
グラフ畳み込みネットワーク(gcns)は多くのタスクで関係推論において有望な利点を示しているが、長いビデオシーケンスにグラフ畳み込みネットワークを効果的に適用することは依然として課題である。
主な理由は、多数のノード(つまりビデオフレーム)がgcnをビデオ内の時間的関係のキャプチャとモデル化を困難にしているためである。
そこで本稿では,映像フレーム間の時間的関係や依存性を様々な時間範囲でモデル化するために,効率的なgcnモジュールである拡張時相グラフ推論モジュール(dtgrm)を提案する。
特に,各ノードが異なるモーメントのフレームを表現するマルチレベル拡張時間グラフを構築し,時間関係をキャプチャしモデル化する。
さらに,提案モデルの時間的推論能力を高めるために,拡張時間グラフ推論モジュールがビデオ中の間違った時間的関係を発見し,修正することを奨励するために,補助的自己指導タスクを提案する。
当社のdtgrmモデルは,50サラド,ジョージア工科大学エゴセントリックアクティビティ(gtea),朝食データセットの3つの課題データセットにおいて,最先端のアクションセグメンテーションモデルよりも優れています。
コードはhttps://github.com/redwang/DTGRMで公開されている。
関連論文リスト
- SelfGNN: Self-Supervised Graph Neural Networks for Sequential Recommendation [15.977789295203976]
本稿では,SelfGNN(Self-Supervised Graph Neural Network)と呼ばれる新しいフレームワークを提案する。
SelfGNNフレームワークは、時間間隔に基づいて短期グラフを符号化し、グラフニューラルネットワーク(GNN)を使用して短期的な協調関係を学習する。
パーソナライズされた自己強化学習構造は、長期のユーザ関心と個人の安定性に基づいて、短期的なグラフにおけるノイズを緩和することにより、モデルロバスト性を高める。
論文 参考訳(メタデータ) (2024-05-31T14:53:12Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Multi-Task Edge Prediction in Temporally-Dynamic Video Graphs [16.121140184388786]
MTD-GNNは,複数種類の関係に対して時間動的エッジを予測するグラフネットワークである。
時間-動的グラフネットワークにおける複数の関係をモデル化することは相互に有益であることを示す。
論文 参考訳(メタデータ) (2022-12-06T10:41:00Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。