論文の概要: Parameter-Efficient Image-to-Video Transfer Learning
- arxiv url: http://arxiv.org/abs/2206.13559v1
- Date: Mon, 27 Jun 2022 18:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 22:54:50.225842
- Title: Parameter-Efficient Image-to-Video Transfer Learning
- Title(参考訳): パラメータ効率の良い画像間移動学習
- Authors: Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, Hongsheng Li
- Abstract要約: 様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
- 参考スコア(独自算出の注目度): 66.82811235484607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capitalizing on large pre-trained models for various downstream tasks of
interest have recently emerged with promising performance. Due to the
ever-growing model size, the standard full fine-tuning based task adaptation
strategy becomes prohibitively costly in terms of model training and storage.
This has led to a new research direction in parameter-efficient transfer
learning. However, existing attempts typically focus on downstream tasks from
the same modality (e.g., image understanding) of the pre-trained model. This
creates a limit because in some specific modalities, (e.g., video
understanding) such a strong pre-trained model with sufficient knowledge is
less or not available. In this work, we investigate such a novel cross-modality
transfer learning setting, namely parameter-efficient image-to-video transfer
learning. To solve this problem, we propose a new Spatio-Temporal Adapter
(ST-Adapter) for parameter-efficient fine-tuning per video task. With a
built-in spatio-temporal reasoning capability in a compact design, ST-Adapter
enables a pre-trained image model without temporal knowledge to reason about
dynamic video content at a small (~8%) per-task parameter cost, requiring
approximately 20 times fewer updated parameters compared to previous work.
Extensive experiments on video action recognition tasks show that our
ST-Adapter can match or even outperform the strong full fine-tuning strategy
and state-of-the-art video models, whilst enjoying the advantage of parameter
efficiency.
- Abstract(参考訳): 様々な下流タスクのための大規模な事前学習モデルの資本化は、最近、有望なパフォーマンスで現れている。
モデルサイズが拡大するにつれ、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略は極めて高価になる。
これはパラメータ効率の伝達学習における新たな研究の方向性につながった。
しかし、既存の試みは、通常、訓練済みモデルの同じモダリティ(例えば画像理解)から下流タスクに焦点を当てる。
これは、ある特定のモダリティ(例えば、ビデオ理解)において、十分な知識を持つ強い事前訓練されたモデルが入手できない、あるいは利用できないため、限界を生み出す。
本研究では, パラメータ効率の高い映像から映像への転送学習という, 新たなクロスモダリティ伝達学習設定について検討する。
この問題を解決するために,ビデオタスク毎にパラメータ効率の良い微調整を行う新しい時空間適応器(ST-Adapter)を提案する。
コンパクトな設計で時空間推論機能を組み込んだST-Adapterは、時間的知識のない事前訓練された画像モデルで、タスク毎のパラメータコストが小さく(〜8%)、以前の作業に比べて20倍の更新パラメータを必要とする。
ビデオ行動認識タスクに関する大規模な実験は、パラメータ効率の利点を享受しながら、我々のST-Adapterが強力なフルチューニング戦略や最先端のビデオモデルに適合し、さらに優れることを示した。
関連論文リスト
- Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - AdaptIR: Parameter Efficient Multi-task Adaptation for Pre-trained Image
Restoration Models [58.10797482129863]
本稿では,事前学習した復元モデルに適応するためのパラメータ効率の良い移動学習手法であるAdaptIRを提案する。
実験により,提案手法は0.6%しか使用せず,完全微調整よりも同等あるいはさらに優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to
Video [20.326575575274305]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解決するための効率的なパラダイムになりつつある。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送するゼロコスト適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - AIM: Adapting Image Models for Efficient Video Action Recognition [22.805026175928997]
本稿では,映像理解のためのAIM (Adapted Pre-trained Image Models) を提案する。
事前学習したビデオモデルを凍結し、いくつかの軽量なアダプタを追加することにより、空間適応、時間適応、関節適応を導入する。
提案したAIMは,学習可能なパラメータが大幅に少ない先行技術よりも,競争力やパフォーマンスの向上が期待できることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:59:17Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。