論文の概要: Temporally-Adaptive Models for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2308.05787v1
- Date: Thu, 10 Aug 2023 17:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:54:55.306426
- Title: Temporally-Adaptive Models for Efficient Video Understanding
- Title(参考訳): 効率的な映像理解のための時間適応モデル
- Authors: Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Yingya Zhang, Ziwei
Liu, Marcelo H. Ang Jr
- Abstract要約: この研究は、時間次元に沿った適応的なウェイトキャリブレーションが、ビデオの複雑な時間力学をモデル化するための効率的な方法であることを示している。
具体的には、TAdaConvは、各フレームの畳み込み重みを、その局所的および大域的時間的文脈に応じて調整することにより、時間的モデリング能力を備えた空間的畳み込みを増強する。
時間的モデリングの既存の操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴ではなく、畳み込みカーネル上で動作するので、より効率的である。
- 参考スコア(独自算出の注目度): 36.413570840293005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial convolutions are extensively used in numerous deep video models. It
fundamentally assumes spatio-temporal invariance, i.e., using shared weights
for every location in different frames. This work presents Temporally-Adaptive
Convolutions (TAdaConv) for video understanding, which shows that adaptive
weight calibration along the temporal dimension is an efficient way to
facilitate modeling complex temporal dynamics in videos. Specifically, TAdaConv
empowers spatial convolutions with temporal modeling abilities by calibrating
the convolution weights for each frame according to its local and global
temporal context. Compared to existing operations for temporal modeling,
TAdaConv is more efficient as it operates over the convolution kernels instead
of the features, whose dimension is an order of magnitude smaller than the
spatial resolutions. Further, kernel calibration brings an increased model
capacity. Based on this readily plug-in operation TAdaConv as well as its
extension, i.e., TAdaConvV2, we construct TAdaBlocks to empower ConvNeXt and
Vision Transformer to have strong temporal modeling capabilities. Empirical
results show TAdaConvNeXtV2 and TAdaFormer perform competitively against
state-of-the-art convolutional and Transformer-based models in various video
understanding benchmarks. Our codes and models are released at:
https://github.com/alibaba-mmai-research/TAdaConv.
- Abstract(参考訳): 空間畳み込みは多くの深層ビデオモデルで広く使われている。
基本的には時空間不変性、すなわち異なるフレーム内のすべての位置の共有重みを用いる。
本研究は,ビデオ理解のための時間適応畳み込み(tadaconv)を示し,時間次元に沿った適応ウェイトキャリブレーションは,ビデオの複雑な時間ダイナミクスのモデリングを容易にする効率的な方法であることを示す。
具体的には、各フレームの畳み込み重みを局所的および全体的時間的文脈に応じて調整することにより、空間畳み込みと時間的モデリング能力を強化する。
時間的モデリングの既存の操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴の代わりに畳み込みカーネル上で動作するので、より効率的である。
さらに、カーネルキャリブレーションによりモデルキャパシティが向上する。
このプラグイン操作 TAdaConv と拡張,すなわち TAdaConvV2 に基づいて,我々は TAdaBlocks を構築し,ConvNeXt と Vision Transformer に強力な時間的モデリング機能を持たせる。
実験の結果,tadaconvnextv2 と tadaformer は,コンボリューションモデルやトランスフォーマーモデルと,様々なビデオ理解ベンチマークで競合することがわかった。
私たちのコードとモデルは、https://github.com/alibaba-mmai-research/TAdaConv.comでリリースされています。
関連論文リスト
- ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - CV-VAE: A Compatible Video VAE for Latent Generative Video Models [45.702473834294146]
可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:33:10Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - TAda! Temporally-Adaptive Convolutions for Video Understanding [17.24510667917993]
時間次元に沿った適応的なウェイトキャリブレーションは、ビデオの複雑な時間力学をモデル化するための効率的な方法である。
TAdaConvは、時間的モデリング能力を持つ空間的畳み込みを、その局所的および大域的時間的文脈に応じて各フレームの畳み込み重みを調整することによって強化する。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
論文 参考訳(メタデータ) (2021-10-12T17:25:07Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。