Fugu-MT 論文翻訳(概要): AIM: Adapting Image Models for Efficient Video Action Recognition

論文の概要: AIM: Adapting Image Models for Efficient Video Action Recognition

arxiv url: http://arxiv.org/abs/2302.03024v1
Date: Mon, 6 Feb 2023 18:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 15:16:09.391123
Title: AIM: Adapting Image Models for Efficient Video Action Recognition
Title（参考訳）: AIM:効率的な映像行動認識のための画像モデルの適用
Authors: Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li
Abstract要約: 本稿では,映像理解のためのAIM (Adapted Pre-trained Image Models) を提案する。事前学習したビデオモデルを凍結し、いくつかの軽量なアダプタを追加することにより、空間適応、時間適応、関節適応を導入する。提案したAIMは,学習可能なパラメータが大幅に少ない先行技術よりも,競争力やパフォーマンスの向上が期待できることを示す。
参考スコア（独自算出の注目度）: 22.805026175928997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent vision transformer based video models mostly follow the ``image pre-training then finetuning" paradigm and have achieved great success on multiple video benchmarks. However, full finetuning such a video model could be computationally expensive and unnecessary, given the pre-trained image transformer models have demonstrated exceptional transferability. In this work, we propose a novel method to Adapt pre-trained Image Models (AIM) for efficient video understanding. By freezing the pre-trained image model and adding a few lightweight Adapters, we introduce spatial adaptation, temporal adaptation and joint adaptation to gradually equip an image model with spatiotemporal reasoning capability. We show that our proposed AIM can achieve competitive or even better performance than prior arts with substantially fewer tunable parameters on four video action recognition benchmarks. Thanks to its simplicity, our method is also generally applicable to different image pre-trained models, which has the potential to leverage more powerful image foundation models in the future. The project webpage is \url{https://adapt-image-models.github.io/}.
Abstract（参考訳）: 最近のビジョントランスフォーマーベースのビデオモデルは、主に ``image pre-training then finetuning" パラダイムに従っており、複数のビデオベンチマークで大きな成功を収めている。しかしながら、事前訓練された画像トランスフォーマーモデルが例外的な転送性を示しているため、このようなビデオモデルの完全な微調整は計算コストが高く不要である可能性がある。本研究では,事前学習画像モデル(aim)を効率的な映像理解に適応させる新しい手法を提案する。予め学習した画像モデルを凍結し、いくつかの軽量アダプタを追加することで、空間適応、時間適応、ジョイント適応を導入し、時空間推論能力を備えた画像モデルを徐々に導入する。提案したAIMは, 4つのビデオアクション認識ベンチマークにおいて, チューナブルパラメータが著しく少ない先行技術よりも, 競争力やパフォーマンスが向上することを示す。その単純さにより,本手法は様々な画像事前学習モデルにも適用でき,将来より強力な画像基盤モデルを活用する可能性がある。プロジェクトwebページは \url{https://adapt-image-models.github.io/} である。

関連論文リスト

Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。 AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。 AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-01T13:48:31Z)
FE-Adapter: Adapting Image-based Emotion Classifiers to Videos [21.294212686294568]
本稿では,映像タスクの微調整を効率よく行うために設計された表情適応器(FE-Adapter)について述べる。 FE-Adapterは、パフォーマンスと効率の両方で、既存の微調整とビデオの感情モデルにマッチしたり、超えたりできる。
論文参考訳（メタデータ） (2024-08-05T12:27:28Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文参考訳（メタデータ） (2023-10-02T16:41:20Z)
Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。 Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文参考訳（メタデータ） (2023-06-02T19:00:17Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文参考訳（メタデータ） (2022-06-27T18:02:29Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)
Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。 IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文参考訳（メタデータ） (2020-12-01T09:42:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。