論文の概要: Parameter-Efficient Image-to-Video Transfer Learning
- arxiv url: http://arxiv.org/abs/2206.13559v1
- Date: Mon, 27 Jun 2022 18:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 22:54:50.225842
- Title: Parameter-Efficient Image-to-Video Transfer Learning
- Title(参考訳): パラメータ効率の良い画像間移動学習
- Authors: Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, Hongsheng Li
- Abstract要約: 様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
- 参考スコア(独自算出の注目度): 66.82811235484607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capitalizing on large pre-trained models for various downstream tasks of
interest have recently emerged with promising performance. Due to the
ever-growing model size, the standard full fine-tuning based task adaptation
strategy becomes prohibitively costly in terms of model training and storage.
This has led to a new research direction in parameter-efficient transfer
learning. However, existing attempts typically focus on downstream tasks from
the same modality (e.g., image understanding) of the pre-trained model. This
creates a limit because in some specific modalities, (e.g., video
understanding) such a strong pre-trained model with sufficient knowledge is
less or not available. In this work, we investigate such a novel cross-modality
transfer learning setting, namely parameter-efficient image-to-video transfer
learning. To solve this problem, we propose a new Spatio-Temporal Adapter
(ST-Adapter) for parameter-efficient fine-tuning per video task. With a
built-in spatio-temporal reasoning capability in a compact design, ST-Adapter
enables a pre-trained image model without temporal knowledge to reason about
dynamic video content at a small (~8%) per-task parameter cost, requiring
approximately 20 times fewer updated parameters compared to previous work.
Extensive experiments on video action recognition tasks show that our
ST-Adapter can match or even outperform the strong full fine-tuning strategy
and state-of-the-art video models, whilst enjoying the advantage of parameter
efficiency.
- Abstract(参考訳): 様々な下流タスクのための大規模な事前学習モデルの資本化は、最近、有望なパフォーマンスで現れている。
モデルサイズが拡大するにつれ、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略は極めて高価になる。
これはパラメータ効率の伝達学習における新たな研究の方向性につながった。
しかし、既存の試みは、通常、訓練済みモデルの同じモダリティ(例えば画像理解)から下流タスクに焦点を当てる。
これは、ある特定のモダリティ(例えば、ビデオ理解)において、十分な知識を持つ強い事前訓練されたモデルが入手できない、あるいは利用できないため、限界を生み出す。
本研究では, パラメータ効率の高い映像から映像への転送学習という, 新たなクロスモダリティ伝達学習設定について検討する。
この問題を解決するために,ビデオタスク毎にパラメータ効率の良い微調整を行う新しい時空間適応器(ST-Adapter)を提案する。
コンパクトな設計で時空間推論機能を組み込んだST-Adapterは、時間的知識のない事前訓練された画像モデルで、タスク毎のパラメータコストが小さく(〜8%)、以前の作業に比べて20倍の更新パラメータを必要とする。
ビデオ行動認識タスクに関する大規模な実験は、パラメータ効率の利点を享受しながら、我々のST-Adapterが強力なフルチューニング戦略や最先端のビデオモデルに適合し、さらに優れることを示した。
関連論文リスト
- SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition [9.675072799670458]
高次元映像データのための「映像事前学習とビデオ微調整」は、大きなパフォーマンスボトルネックを生じさせる。
本稿では,外科的位相認識のためのパラメータ効率変換学習ベンチマークSurgPETLを提案する。
5つの大規模自然・医療データセットで事前訓練した2つの異なるスケールのViTに基づいて3つの高度な手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-30T08:33:50Z) - TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - FE-Adapter: Adapting Image-based Emotion Classifiers to Videos [21.294212686294568]
本稿では,映像タスクの微調整を効率よく行うために設計された表情適応器(FE-Adapter)について述べる。
FE-Adapterは、パフォーマンスと効率の両方で、既存の微調整とビデオの感情モデルにマッチしたり、超えたりできる。
論文 参考訳(メタデータ) (2024-08-05T12:27:28Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。