論文の概要: Blockwise Temporal-Spatial Pathway Network
- arxiv url: http://arxiv.org/abs/2208.03040v1
- Date: Fri, 5 Aug 2022 08:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:41:22.046206
- Title: Blockwise Temporal-Spatial Pathway Network
- Title(参考訳): ブロックワイズ時空間経路ネットワーク
- Authors: SeulGi Hong, Min-Kook Choi
- Abstract要約: ブロックワイド時空間経路ネットワーク(BTSNet)と呼ばれる3次元CNNに基づく行動認識モデルを提案する。
画像認識のための空間受容場を適応的に選択する適応型カーネル選択モデルに着想を得た新しいモデルを構築した。
評価のために提案したモデルを,UCF-101,HMDB-51,SVW,EpicKitchenデータセットで検証した。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Algorithms for video action recognition should consider not only spatial
information but also temporal relations, which remains challenging. We propose
a 3D-CNN-based action recognition model, called the blockwise temporal-spatial
path-way network (BTSNet), which can adjust the temporal and spatial receptive
fields by multiple pathways. We designed a novel model inspired by an adaptive
kernel selection-based model, which is an architecture for effective feature
encoding that adaptively chooses spatial receptive fields for image
recognition. Expanding this approach to the temporal domain, our model extracts
temporal and channel-wise attention and fuses information on various candidate
operations. For evaluation, we tested our proposed model on UCF-101, HMDB-51,
SVW, and Epic-Kitchen datasets and showed that it generalized well without
pretraining. BTSNet also provides interpretable visualization based on
spatiotemporal channel-wise attention. We confirm that the blockwise
temporal-spatial pathway supports a better representation for 3D convolutional
blocks based on this visualization.
- Abstract(参考訳): 映像行動認識のためのアルゴリズムは,空間情報だけでなく時間的関係も考慮すべきである。
本稿では,btsnet(blockwise temporal-spatial path-way network)と呼ばれる3d-cnnに基づく行動認識モデルを提案する。
画像認識のための空間受容場を適応的に選択する効果的な特徴符号化のためのアーキテクチャである適応的カーネル選択ベースモデルに触発された新しいモデルを設計した。
このアプローチを時間領域に拡張することで,時間的およびチャネル的注意を抽出し,様々な候補操作に関する情報を融合する。
評価のために,UCF-101,HMDB-51,SVW,Epic-Kitchenのデータセットを用いて提案モデルを検証し,事前学習なしに一般化したことを示した。
BTSNetはまた、時空間チャネルの注意に基づく解釈可能な可視化を提供する。
この視覚化に基づいて3次元畳み込みブロックの表現性が向上することが確認された。
関連論文リスト
- Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation [47.984368369734995]
本稿では,イベントベース光フロー推定のためのニューラルネットアーキテクチャを提案する。
このネットワークは、Multi-Vehicle Stereo Event Cameraデータセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
既存の最先端の手法を大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-10T13:37:37Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Directional Temporal Modeling for Action Recognition [24.805397801876687]
本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。
当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。
論文 参考訳(メタデータ) (2020-07-21T18:49:57Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。