論文の概要: ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video
- arxiv url: http://arxiv.org/abs/2310.01324v2
- Date: Thu, 11 Jul 2024 14:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:47:33.478556
- Title: ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video
- Title(参考訳): ZeroI2V:画像からビデオへの事前学習トランスフォーマーのゼロコスト適応
- Authors: Xinhao Li, Yuhan Zhu, Limin Wang,
- Abstract要約: ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
- 参考スコア(独自算出の注目度): 15.952896909797728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting image models to the video domain has emerged as an efficient paradigm for solving video recognition tasks. Due to the huge number of parameters and effective transferability of image models, performing full fine-tuning is less efficient and even unnecessary. Thus, recent research is shifting its focus toward parameter-efficient image-to-video adaptation. However, these adaptation strategies inevitably introduce extra computational costs to deal with the domain gap and temporal modeling in videos. In this paper, we present a new adaptation paradigm (ZeroI2V) to transfer the image transformers to video recognition tasks (i.e., introduce zero extra cost to the original models during inference). To achieve this goal, we present two core designs. First, to capture the dynamics in videos and reduce the difficulty of image-to-video adaptation, we exploit the flexibility of self-attention and introduce spatial-temporal dual-headed attention (STDHA). This approach efficiently endows the image transformers with temporal modeling capability at zero extra parameters and computation. Second, to handle the domain gap between images and videos, we propose a linear adaption strategy that utilizes lightweight densely placed linear adapters to fully transfer the frozen image models to video recognition. Thanks to the customized linear design, all newly added adapters could be easily merged with the original modules through structural reparameterization after training, enabling zero extra cost during inference. Extensive experiments on representative fully-supervised and few-shot video recognition benchmarks showcase that ZeroI2V can match or even outperform previous state-of-the-art methods while enjoying superior parameter and inference efficiency.
- Abstract(参考訳): ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れてきた。
画像モデルの膨大なパラメータと効果的な転送性のため、完全な微調整の実行は効率が悪く、さらに不要である。
このように、近年の研究はパラメータ効率のよい画像から映像への適応に焦点を移している。
しかし、これらの適応戦略は必然的に、ビデオの領域ギャップと時間的モデリングを扱うために余分な計算コストをもたらす。
本稿では,画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
この目的を達成するために、我々は2つのコア設計を提示した。
まず,映像のダイナミックスを捉え,映像から映像への適応の困難さを軽減するために,自己注意の柔軟性を活用し,時空間二重注意(STDHA)を導入する。
このアプローチは、画像変換器に時間的モデリング機能を持たせ、余分なパラメータや計算をゼロにする。
第2に、画像とビデオ間の領域ギャップを取り扱うために、軽量に密配置された線形アダプタを用いて凍結画像モデルを完全にビデオ認識に転送する線形適応戦略を提案する。
カスタマイズされた線形設計のおかげで、全ての新しいアダプタはトレーニング後の構造的パラメータ化によって元のモジュールと簡単にマージすることができ、推論時に余分なコストをゼロにすることができた。
ZeroI2Vは、優れたパラメータと推論効率を享受しながら、従来の最先端の手法にマッチしたり、性能を上回ったりできる。
関連論文リスト
- FE-Adapter: Adapting Image-based Emotion Classifiers to Videos [21.294212686294568]
本稿では,映像タスクの微調整を効率よく行うために設計された表情適応器(FE-Adapter)について述べる。
FE-Adapterは、パフォーマンスと効率の両方で、既存の微調整とビデオの感情モデルにマッチしたり、超えたりできる。
論文 参考訳(メタデータ) (2024-08-05T12:27:28Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - AIM: Adapting Image Models for Efficient Video Action Recognition [22.805026175928997]
本稿では,映像理解のためのAIM (Adapted Pre-trained Image Models) を提案する。
事前学習したビデオモデルを凍結し、いくつかの軽量なアダプタを追加することにより、空間適応、時間適応、関節適応を導入する。
提案したAIMは,学習可能なパラメータが大幅に少ない先行技術よりも,競争力やパフォーマンスの向上が期待できることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:59:17Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。