論文の概要: SmallBigNet: Integrating Core and Contextual Views for Video
Classification
- arxiv url: http://arxiv.org/abs/2006.14582v1
- Date: Thu, 25 Jun 2020 17:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 04:16:44.806767
- Title: SmallBigNet: Integrating Core and Contextual Views for Video
Classification
- Title(参考訳): SmallBigNet: ビデオ分類のためのコアとコンテキストビューの統合
- Authors: Xianhang Li, Yali Wang, Zhipeng Zhou, Yu Qiao
- Abstract要約: 本研究では,コンパクトで斬新なSmallBigネットワークを提案する。
本研究では,Kineetics400,Something V1,V2などの大規模ビデオベンチマークについて広範な実験を行った。
私たちのSmallBigネットワークは、精度や効率の点で、最近の最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 57.19778018836982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal convolution has been widely used for video classification. However,
it is performed on spatio-temporal contexts in a limited view, which often
weakens its capacity of learning video representation. To alleviate this
problem, we propose a concise and novel SmallBig network, with the cooperation
of small and big views. For the current time step, the small view branch is
used to learn the core semantics, while the big view branch is used to capture
the contextual semantics. Unlike traditional temporal convolution, the big view
branch can provide the small view branch with the most activated video features
from a broader 3D receptive field. Via aggregating such big-view contexts, the
small view branch can learn more robust and discriminative spatio-temporal
representations for video classification. Furthermore, we propose to share
convolution in the small and big view branch, which improves model compactness
as well as alleviates overfitting. As a result, our SmallBigNet achieves a
comparable model size like 2D CNNs, while boosting accuracy like 3D CNNs. We
conduct extensive experiments on the large-scale video benchmarks, e.g.,
Kinetics400, Something-Something V1 and V2. Our SmallBig network outperforms a
number of recent state-of-the-art approaches, in terms of accuracy and/or
efficiency. The codes and models will be available on
https://github.com/xhl-video/SmallBigNet.
- Abstract(参考訳): 時間的畳み込みはビデオ分類に広く用いられている。
しかし、それは限られた視点で時空間的な文脈で行われ、しばしばビデオ表現の学習能力を弱める。
この問題を軽減するために,小・大視野の協調により,簡潔で斬新なSmallBigネットワークを提案する。
現在のステップでは、小さなビューブランチを使用してコアセマンティクスを学習し、大きなビューブランチはコンテキストセマンティクスをキャプチャします。
従来の時間的畳み込みとは異なり、big viewブランチはより広い3d受容フィールドから最も活性化されたビデオ機能を備えた小さなビューブランチを提供することができる。
このようなビッグビューコンテキストを集約することで、small viewブランチはビデオ分類のためのより堅牢で差別的な時空間表現を学ぶことができる。
さらに, モデルコンパクト性を改善し, オーバーフィッティングを緩和する, 小型かつ大視野の分岐部における畳み込みの共有を提案する。
その結果、SmallBigNetは2D CNNのようなモデルサイズを実現し、3D CNNのような精度を高めました。
本研究では,Kineetics400,Something V1,V2などの大規模ビデオベンチマークについて広範な実験を行った。
私たちのSmallBigネットワークは、精度や効率の点で、最近の最先端のアプローチよりも優れています。
コードとモデルはhttps://github.com/xhl-video/smallbignetで入手できる。
関連論文リスト
- CSTA: CNN-based Spatiotemporal Attention for Video Summarization [0.24578723416255752]
本稿では,CNN をベースとした SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
論文 参考訳(メタデータ) (2024-05-20T09:38:37Z) - VideoMamba: State Space Model for Efficient Video Understanding [46.17083617091239]
VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、効率的な長期モデリングを可能にする。
VideoMambaはビデオ理解のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-03-11T17:59:34Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - CT-Net: Channel Tensorization Network for Video Classification [48.4482794950675]
3D畳み込みはビデオ分類には強力だが、しばしば計算コストがかかる。
ほとんどのアプローチは、畳み込み効率と機能的相互作用の十分性の間の好適なバランスを達成できない。
簡潔で斬新なチャネルネットワーク(CT-Net)を提案する。
我々のCT-Netは、精度および/または効率の点で、最近のSOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T05:35:43Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。