論文の概要: DSANet: Dynamic Segment Aggregation Network for Video-Level
Representation Learning
- arxiv url: http://arxiv.org/abs/2105.12085v1
- Date: Tue, 25 May 2021 17:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 16:08:18.797047
- Title: DSANet: Dynamic Segment Aggregation Network for Video-Level
Representation Learning
- Title(参考訳): DSANet:ビデオレベル表現学習のための動的セグメント集約ネットワーク
- Authors: Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang
Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi
- Abstract要約: 我々は,ビデオ認識の重要な側面として,動力学的・短距離時間モデリングを考案した。
本稿では,スニペット間の関係を捉えるための動的セグメンテーションアグリゲーション(DSA)モジュールを提案する。
提案するDSAモジュールは,様々なビデオ認識モデルに有益であることを示す。
- 参考スコア(独自算出の注目度): 29.182482776910152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-range and short-range temporal modeling are two complementary and
crucial aspects of video recognition. Most of the state-of-the-arts focus on
short-range spatio-temporal modeling and then average multiple snippet-level
predictions to yield the final video-level prediction. Thus, their video-level
prediction does not consider spatio-temporal features of how video evolves
along the temporal dimension. In this paper, we introduce a novel Dynamic
Segment Aggregation (DSA) module to capture relationship among snippets. To be
more specific, we attempt to generate a dynamic kernel for a convolutional
operation to aggregate long-range temporal information among adjacent snippets
adaptively. The DSA module is an efficient plug-and-play module and can be
combined with the off-the-shelf clip-based models (i.e., TSM, I3D) to perform
powerful long-range modeling with minimal overhead. The final video
architecture, coined as DSANet. We conduct extensive experiments on several
video recognition benchmarks (i.e., Mini-Kinetics-200, Kinetics-400,
Something-Something V1 and ActivityNet) to show its superiority. Our proposed
DSA module is shown to benefit various video recognition models significantly.
For example, equipped with DSA modules, the top-1 accuracy of I3D ResNet-50 is
improved from 74.9% to 78.2% on Kinetics-400. Codes will be available.
- Abstract(参考訳): 長距離・短距離時間モデリングはビデオ認識の相補的かつ重要な2つの側面である。
最先端技術のほとんどは、短距離時空間モデリングに焦点を合わせ、次に複数のスニペットレベルの予測を平均して、最終的なビデオレベルの予測を生成する。
したがって、ビデオレベルの予測は、ビデオが時間次元に沿ってどのように進化するかの時空間的特徴を考慮しない。
本稿では,スニペット間の関係を捉える新しい動的セグメント集約(DSA)モジュールを提案する。
より具体的には、隣り合うスニペット間の長距離時間情報を適応的に集約する畳み込み演算のための動的カーネルを生成する。
DSAモジュールは効率的なプラグアンドプレイモジュールであり、市販のクリップベースモデル(TSM、I3D)と組み合わせて、最小限のオーバーヘッドで強力な長距離モデリングを行うことができる。
最後のビデオアーキテクチャはDSANetと命名された。
我々は,ビデオ認識ベンチマーク(Mini-Kinetics-200,Kineetics-400,Something V1,ActivityNet)において,その優位性を示す広範な実験を行った。
提案するDSAモジュールは,様々なビデオ認識モデルに有益であることを示す。
例えば、DSAモジュールを装備したI3D ResNet-50のTop-1精度は、Kinetics-400では74.9%から78.2%に改善された。
コードは利用可能だ。
関連論文リスト
- No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。