論文の概要: CT-Net: Channel Tensorization Network for Video Classification
- arxiv url: http://arxiv.org/abs/2106.01603v1
- Date: Thu, 3 Jun 2021 05:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:10:14.687938
- Title: CT-Net: Channel Tensorization Network for Video Classification
- Title(参考訳): CT-Net:ビデオ分類のためのチャネルテンソル化ネットワーク
- Authors: Kunchang Li, Xianhang Li, Yali Wang, Jun Wang and Yu Qiao
- Abstract要約: 3D畳み込みはビデオ分類には強力だが、しばしば計算コストがかかる。
ほとんどのアプローチは、畳み込み効率と機能的相互作用の十分性の間の好適なバランスを達成できない。
簡潔で斬新なチャネルネットワーク(CT-Net)を提案する。
我々のCT-Netは、精度および/または効率の点で、最近のSOTAアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 48.4482794950675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D convolution is powerful for video classification but often computationally
expensive, recent studies mainly focus on decomposing it on spatial-temporal
and/or channel dimensions. Unfortunately, most approaches fail to achieve a
preferable balance between convolutional efficiency and feature-interaction
sufficiency. For this reason, we propose a concise and novel Channel
Tensorization Network (CT-Net), by treating the channel dimension of input
feature as a multiplication of K sub-dimensions. On one hand, it naturally
factorizes convolution in a multiple dimension way, leading to a light
computation burden. On the other hand, it can effectively enhance feature
interaction from different channels, and progressively enlarge the 3D receptive
field of such interaction to boost classification accuracy. Furthermore, we
equip our CT-Module with a Tensor Excitation (TE) mechanism. It can learn to
exploit spatial, temporal and channel attention in a high-dimensional manner,
to improve the cooperative power of all the feature dimensions in our
CT-Module. Finally, we flexibly adapt ResNet as our CT-Net. Extensive
experiments are conducted on several challenging video benchmarks, e.g.,
Kinetics-400, Something-Something V1 and V2. Our CT-Net outperforms a number of
recent SOTA approaches, in terms of accuracy and/or efficiency. The codes and
models will be available on https://github.com/Andy1621/CT-Net.
- Abstract(参考訳): 3次元畳み込みはビデオの分類には強力であるが、計算コストが高いことが多い。
残念なことに、ほとんどのアプローチは畳み込み効率と機能-相互作用の十分性の間の望ましいバランスを達成できていない。
そこで我々は,入力特徴のチャネル次元をK部分次元の乗算として扱うことで,簡潔で斬新なチャネルテンソル化ネットワーク(CT-Net)を提案する。
一方、畳み込みは自然に多次元的に分解され、光計算の負担となる。
一方、異なるチャネルからの特徴的相互作用を効果的に強化し、そのような相互作用の3次元受容場を段階的に拡大し、分類精度を高めることができる。
さらに,CT-Module に Tensor Excitation (TE) 機構を装着した。
空間的,時間的,チャネル的注意を高次元的に活用し,CT-モジュールのすべての特徴次元の協調力を向上することができる。
最後に,ResNetをCT-Netとして柔軟に適用する。
大規模な実験は、Kinetics-400、Something V1、V2など、いくつかの挑戦的なビデオベンチマークで行われている。
我々のCT-Netは、精度や効率の点で、最近のSOTAアプローチよりも優れています。
コードとモデルはhttps://github.com/Andy1621/CT-Netで入手できる。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Spatial-Spectral Hyperspectral Classification based on Learnable 3D
Group Convolution [18.644268589334217]
本稿では、3D-DenseNetモデルの改良と軽量モデル設計に基づく学習可能なグループ畳み込みネットワーク(LGCNet)を提案する。
LGCNetモジュールは、入力チャネルと畳み込みカーネルグループのための動的学習手法を導入することにより、グループ畳み込みの欠点を改善する。
LGCNetは推論速度と精度の進歩を達成し、インドパインズ、パヴィア大学、KSCのデータセットで主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2023-07-15T05:47:12Z) - DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for
Hyperspectral Remote Sensing Image Classification [22.025733502296035]
改良された3D-Densenetモデルに基づく軽量モデルを導入し,DGCNetを設計する。
複数のグループは、入力画像の異なる視覚的および意味的な特徴をキャプチャし、畳み込みニューラルネットワーク(CNN)がリッチな特徴を学習できるようにする。
推論速度と精度が向上し、IN、Pavia、KSCデータセット上での優れたパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-07-13T10:19:48Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。