論文の概要: TAda! Temporally-Adaptive Convolutions for Video Understanding
- arxiv url: http://arxiv.org/abs/2110.06178v1
- Date: Tue, 12 Oct 2021 17:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:48:44.927745
- Title: TAda! Temporally-Adaptive Convolutions for Video Understanding
- Title(参考訳): タダ!
映像理解のための時間適応畳み込み
- Authors: Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang,
Ziwei Liu, Marcelo H. Ang Jr
- Abstract要約: 時間次元に沿った適応的なウェイトキャリブレーションは、ビデオの複雑な時間力学をモデル化するための効率的な方法である。
TAdaConvは、時間的モデリング能力を持つ空間的畳み込みを、その局所的および大域的時間的文脈に応じて各フレームの畳み込み重みを調整することによって強化する。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
- 参考スコア(独自算出の注目度): 17.24510667917993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial convolutions are widely used in numerous deep video models. It
fundamentally assumes spatio-temporal invariance, i.e., using shared weights
for every location in different frames. This work presents Temporally-Adaptive
Convolutions (TAdaConv) for video understanding, which shows that adaptive
weight calibration along the temporal dimension is an efficient way to
facilitate modelling complex temporal dynamics in videos. Specifically,
TAdaConv empowers the spatial convolutions with temporal modelling abilities by
calibrating the convolution weights for each frame according to its local and
global temporal context. Compared to previous temporal modelling operations,
TAdaConv is more efficient as it operates over the convolution kernels instead
of the features, whose dimension is an order of magnitude smaller than the
spatial resolutions. Further, the kernel calibration also brings an increased
model capacity. We construct TAda2D networks by replacing the spatial
convolutions in ResNet with TAdaConv, which leads to on par or better
performance compared to state-of-the-art approaches on multiple video action
recognition and localization benchmarks. We also demonstrate that as a readily
plug-in operation with negligible computation overhead, TAdaConv can
effectively improve many existing video models with a convincing margin. Codes
and models will be made available at
https://github.com/alibaba-mmai-research/pytorch-video-understanding.
- Abstract(参考訳): 空間畳み込みは多くのディープビデオモデルで広く使われている。
基本的には時空間不変性、すなわち異なるフレーム内のすべての位置の共有重みを用いる。
ビデオ理解のための時間適応的畳み込み(TAdaConv)は、時間次元に沿った適応的な重み付けが、ビデオの複雑な時間的ダイナミクスをモデル化するための効率的な方法であることを示す。
具体的には,各フレームの畳み込み重みを局所的および大域的な時間的文脈に応じて調整することにより,時間的モデリング能力を有する空間畳み込みを付与する。
従来の時間的モデリング操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴の代わりに畳み込みカーネル上で動作するので、より効率的である。
さらに、カーネルキャリブレーションは、モデルキャパシティも増加させる。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
また,計算オーバーヘッドを無視できるプラグイン操作により,TAdaConvは既存のビデオモデルの多くを効果的に改善できることを示す。
コードとモデルはhttps://github.com/alibaba-mmai-research/pytorch-video-understandingで利用可能になる。
関連論文リスト
- CV-VAE: A Compatible Video VAE for Latent Generative Video Models [45.702473834294146]
可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:33:10Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Temporally-Adaptive Models for Efficient Video Understanding [36.413570840293005]
この研究は、時間次元に沿った適応的なウェイトキャリブレーションが、ビデオの複雑な時間力学をモデル化するための効率的な方法であることを示している。
具体的には、TAdaConvは、各フレームの畳み込み重みを、その局所的および大域的時間的文脈に応じて調整することにより、時間的モデリング能力を備えた空間的畳み込みを増強する。
時間的モデリングの既存の操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴ではなく、畳み込みカーネル上で動作するので、より効率的である。
論文 参考訳(メタデータ) (2023-08-10T17:35:47Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression [25.96187914295921]
本稿では,空間的依存と時間的依存の両方を効率的に捉える強力なエントロピーモデルを提案する。
我々のエントロピーモデルでは,最大圧縮比を用いたH266(VTM)と比較して,UVGデータセットの18.2%の節約が可能である。
論文 参考訳(メタデータ) (2022-07-13T00:03:54Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。