論文の概要: AIM: Adapting Image Models for Efficient Video Action Recognition
- arxiv url: http://arxiv.org/abs/2302.03024v1
- Date: Mon, 6 Feb 2023 18:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 15:16:09.391123
- Title: AIM: Adapting Image Models for Efficient Video Action Recognition
- Title(参考訳): AIM:効率的な映像行動認識のための画像モデルの適用
- Authors: Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li
- Abstract要約: 本稿では,映像理解のためのAIM (Adapted Pre-trained Image Models) を提案する。
事前学習したビデオモデルを凍結し、いくつかの軽量なアダプタを追加することにより、空間適応、時間適応、関節適応を導入する。
提案したAIMは,学習可能なパラメータが大幅に少ない先行技術よりも,競争力やパフォーマンスの向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 22.805026175928997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision transformer based video models mostly follow the ``image
pre-training then finetuning" paradigm and have achieved great success on
multiple video benchmarks. However, full finetuning such a video model could be
computationally expensive and unnecessary, given the pre-trained image
transformer models have demonstrated exceptional transferability. In this work,
we propose a novel method to Adapt pre-trained Image Models (AIM) for efficient
video understanding. By freezing the pre-trained image model and adding a few
lightweight Adapters, we introduce spatial adaptation, temporal adaptation and
joint adaptation to gradually equip an image model with spatiotemporal
reasoning capability. We show that our proposed AIM can achieve competitive or
even better performance than prior arts with substantially fewer tunable
parameters on four video action recognition benchmarks. Thanks to its
simplicity, our method is also generally applicable to different image
pre-trained models, which has the potential to leverage more powerful image
foundation models in the future. The project webpage is
\url{https://adapt-image-models.github.io/}.
- Abstract(参考訳): 最近のビジョントランスフォーマーベースのビデオモデルは、主に ``image pre-training then finetuning" パラダイムに従っており、複数のビデオベンチマークで大きな成功を収めている。
しかしながら、事前訓練された画像トランスフォーマーモデルが例外的な転送性を示しているため、このようなビデオモデルの完全な微調整は計算コストが高く不要である可能性がある。
本研究では,事前学習画像モデル(aim)を効率的な映像理解に適応させる新しい手法を提案する。
予め学習した画像モデルを凍結し、いくつかの軽量アダプタを追加することで、空間適応、時間適応、ジョイント適応を導入し、時空間推論能力を備えた画像モデルを徐々に導入する。
提案したAIMは, 4つのビデオアクション認識ベンチマークにおいて, チューナブルパラメータが著しく少ない先行技術よりも, 競争力やパフォーマンスが向上することを示す。
その単純さにより,本手法は様々な画像事前学習モデルにも適用でき,将来より強力な画像基盤モデルを活用する可能性がある。
プロジェクトwebページは \url{https://adapt-image-models.github.io/} である。
関連論文リスト
- AnimateLCM: Accelerating the Animation of Personalized Diffusion Models
and Adapters with Decoupled Consistency Learning [47.681633892135125]
最小ステップで高忠実度映像を生成できるAnimateLCMを提案する。
生のビデオデータセット上で一貫性学習を直接実行する代わりに、分離された一貫性学習戦略を提案する。
画像条件付き映像生成とレイアウト条件付き映像生成における提案手法の有効性を検証し,性能評価の結果を得た。
論文 参考訳(メタデータ) (2024-02-01T16:58:11Z) - ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to
Video [20.326575575274305]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解決するための効率的なパラダイムになりつつある。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送するゼロコスト適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。