論文の概要: Video Is Graph: Structured Graph Module for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2110.05904v1
- Date: Tue, 12 Oct 2021 11:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:39:03.502623
- Title: Video Is Graph: Structured Graph Module for Video Action Recognition
- Title(参考訳): ビデオはグラフ: ビデオアクション認識のための構造化グラフモジュール
- Authors: Rong-Chang Li, Tianyang Xu, Xiao-Jun Wu, and Josef Kittler
- Abstract要約: ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
- 参考スコア(独自算出の注目度): 34.918667614077805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of action recognition, video clips are always treated as ordered
frames for subsequent processing. To achieve spatio-temporal perception,
existing approaches propose to embed adjacent temporal interaction in the
convolutional layer. The global semantic information can therefore be obtained
by stacking multiple local layers hierarchically. However, such global temporal
accumulation can only reflect the high-level semantics in deep layers,
neglecting the potential low-level holistic clues in shallow layers. In this
paper, we first propose to transform a video sequence into a graph to obtain
direct long-term dependencies among temporal frames. To preserve sequential
information during transformation, we devise a structured graph module (SGM),
achieving fine-grained temporal interactions throughout the entire network. In
particular, SGM divides the neighbors of each node into several temporal
regions so as to extract global structural information with diverse sequential
flows. Extensive experiments are performed on standard benchmark datasets,
i.e., Something-Something V1 & V2, Diving48, Kinetics-400, UCF101, and HMDB51.
The reported performance and analysis demonstrate that SGM can achieve
outstanding precision with less computational complexity.
- Abstract(参考訳): アクション認識の分野では、ビデオクリップは後続処理のための順序付きフレームとして扱われる。
時空間知覚を実現するために、既存のアプローチでは、隣接する時間相互作用を畳み込み層に埋め込むことを提案する。
したがって、グローバルな意味情報は複数のローカルレイヤを階層的に積み重ねることで得られる。
しかし、このようなグローバルな時間的蓄積は、浅い層における潜在的低レベルの全体的手がかりを無視して、深層における高レベルの意味を反映することができる。
本稿ではまず,ビデオシーケンスをグラフに変換して,時間フレーム間の直接的な長期的依存関係を求める。
変換中のシーケンシャルな情報を保存するために、構造化グラフモジュール(SGM)を考案し、ネットワーク全体にわたってきめ細かな時間的相互作用を実現する。
特に、sgmは各ノードの近傍を複数の時間領域に分割し、多様な逐次フローを持つグローバル構造情報を抽出する。
一般的なベンチマークデータセット(Something V1 & V2, Diving48, Kinetics-400, UCF101, HMDB51)で大規模な実験が行われる。
報告した性能と解析の結果,sgmは計算量が少なく,精度に優れることがわかった。
関連論文リスト
- Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Self-Supervised Temporal Graph learning with Temporal and Structural Intensity Alignment [53.72873672076391]
時間グラフ学習は、動的情報を用いたグラフベースのタスクのための高品質な表現を生成することを目的としている。
本稿では,時間的および構造的情報の両方を抽出する時間的グラフ学習のためのS2Tという自己教師型手法を提案する。
S2Tは、いくつかのデータセットにおける最先端の競合と比較して、少なくとも10.13%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-02-15T06:36:04Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Learnable Dynamic Temporal Pooling for Time Series Classification [22.931314501371805]
本稿では,セグメントレベルの特徴を集約することにより,隠れ表現の時間的サイズを低減する動的時間的プーリング(DTP)手法を提案する。
時系列全体の分割を複数のセグメントに分割するために,動的時間ゆがみ(dtw)を用いて各時間点を時間順に整列し,セグメントの原型的特徴を示す。
完全連結層と組み合わせたDTP層は、入力時系列内の時間的位置を考慮したさらなる識別的特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-04-02T08:58:44Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。