論文の概要: Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning
- arxiv url: http://arxiv.org/abs/2309.07911v1
- Date: Thu, 14 Sep 2023 17:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 11:43:56.366195
- Title: Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning
- Title(参考訳): 効率的な画像-映像間伝達学習のための空間的・時間的学習
- Authors: Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Yingya Zhang, Changxin Gao,
Deli Zhao, Nong Sang
- Abstract要約: ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
- 参考スコア(独自算出の注目度): 59.26623999209235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale pre-trained language-image models like CLIP have shown
extraordinary capabilities for understanding spatial contents, but naively
transferring such models to video recognition still suffers from unsatisfactory
temporal modeling capabilities. Existing methods insert tunable structures into
or in parallel with the pre-trained model, which either requires
back-propagation through the whole pre-trained model and is thus
resource-demanding, or is limited by the temporal reasoning capability of the
pre-trained structure. In this work, we present DiST, which disentangles the
learning of spatial and temporal aspects of videos. Specifically, DiST uses a
dual-encoder structure, where a pre-trained foundation model acts as the
spatial encoder, and a lightweight network is introduced as the temporal
encoder. An integration branch is inserted between the encoders to fuse
spatio-temporal information. The disentangled spatial and temporal learning in
DiST is highly efficient because it avoids the back-propagation of massive
pre-trained parameters. Meanwhile, we empirically show that disentangled
learning with an extra network for integration benefits both spatial and
temporal understanding. Extensive experiments on five benchmarks show that DiST
delivers better performance than existing state-of-the-art methods by
convincing gaps. When pre-training on the large-scale Kinetics-710, we achieve
89.7% on Kinetics-400 with a frozen ViT-L model, which verifies the scalability
of DiST. Codes and models can be found in
https://github.com/alibaba-mmai-research/DiST.
- Abstract(参考訳): 近年,CLIP のような大規模事前学習型言語画像モデルでは,空間的内容の理解には異常な能力があるが,そのようなモデルを映像認識にナビゲートすることは,相変わらず不満足な時間的モデリング能力に悩まされている。
既存の手法では、事前訓練されたモデル全体を通してバックプロパゲーションが必要か、リソース要求となるか、あるいは事前訓練された構造の時間的推論能力によって制限される、事前訓練されたモデルに調整可能な構造を挿入する。
本研究では,ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
具体的には、事前訓練された基礎モデルが空間エンコーダとして機能し、時間エンコーダとして軽量ネットワークが導入されたデュアルエンコーダ構造を用いる。
エンコーダの間に統合ブランチを挿入して時空間情報をヒューズする。
DiSTの空間的・時間的学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
一方,統合のための余分なネットワークとの絡み合った学習は,空間的理解と時間的理解の両方に有益であることを示す。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
大規模な Kinetics-710 の事前トレーニングでは,凍った ViT-L モデルで Kinetics-400 の89.7% を達成した。
コードとモデルはhttps://github.com/alibaba-mmai-research/DiSTにある。
関連論文リスト
- STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - Adaptive Machine Learning for Time-Varying Systems: Low Dimensional
Latent Space Tuning [91.3755431537592]
本稿では,時間変化システムを対象とした適応機械学習手法を提案する。
我々は,エンコーダデコーダCNNのエンコーダ部出力において,非常に高次元(N>100k)の入力を低次元(N2)潜在空間にマッピングする。
そこで本手法では,割り込みを伴わないフィードバックに基づいて,内部の相関関係を学習し,その進化をリアルタイムで追跡する。
論文 参考訳(メタデータ) (2021-07-13T16:05:28Z) - Gradient Forward-Propagation for Large-Scale Temporal Video Modelling [13.665160620951777]
バックプロパゲーションは前方と後方のパスが完了するまで計算をブロックする。
時間信号の場合、これはレイテンシが高く、リアルタイム学習を妨げる。
本稿では,Sideways上に構築し,時間内に近似勾配を伝搬することでブロッキングを回避する。
計算を分離し、個々のニューラルネットワークモジュールを異なるデバイスに委譲する方法を示し、分散および並列トレーニングを可能にする。
論文 参考訳(メタデータ) (2021-06-15T17:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。