論文の概要: AM Flow: Adapters for Temporal Processing in Action Recognition
- arxiv url: http://arxiv.org/abs/2411.02065v1
- Date: Mon, 04 Nov 2024 13:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:32.258772
- Title: AM Flow: Adapters for Temporal Processing in Action Recognition
- Title(参考訳): AMフロー:行動認識における時間処理用アダプタ
- Authors: Tanay Agrawal, Abid Ali, Antitza Dantcheva, Francois Bremond,
- Abstract要約: textitAttention Map (AM) Flowは、入力されたビデオフレーム内の動きに関連するピクセルを識別する手法である。
AMフローは空間的および時間的処理の分離を可能にし、時間的処理の組合せよりも改善された結果を提供する。
我々は、Kineetics-400、Something v2、Toyota Smarthomeのデータセットについて実験を行い、最先端または同等の結果を示す。
- 参考スコア(独自算出の注目度): 6.67921694218089
- License:
- Abstract: Deep learning models, in particular \textit{image} models, have recently gained generalisability and robustness. %are becoming more general and robust by the day. In this work, we propose to exploit such advances in the realm of \textit{video} classification. Video foundation models suffer from the requirement of extensive pretraining and a large training time. Towards mitigating such limitations, we propose "\textit{Attention Map (AM) Flow}" for image models, a method for identifying pixels relevant to motion in each input video frame. In this context, we propose two methods to compute AM flow, depending on camera motion. AM flow allows the separation of spatial and temporal processing, while providing improved results over combined spatio-temporal processing (as in video models). Adapters, one of the popular techniques in parameter efficient transfer learning, facilitate the incorporation of AM flow into pretrained image models, mitigating the need for full-finetuning. We extend adapters to "\textit{temporal processing adapters}" by incorporating a temporal processing unit into the adapters. Our work achieves faster convergence, therefore reducing the number of epochs needed for training. Moreover, we endow an image model with the ability to achieve state-of-the-art results on popular action recognition datasets. This reduces training time and simplifies pretraining. We present experiments on Kinetics-400, Something-Something v2, and Toyota Smarthome datasets, showcasing state-of-the-art or comparable results.
- Abstract(参考訳): ディープラーニングモデル、特にtextit{image}モデルは、最近、一般化可能性と堅牢性を得た。
%は日が経つにつれてより一般的で堅牢になる。
本稿では,textit{video} 分類の領域におけるこのような進歩を活用することを提案する。
ビデオファンデーションモデルは、大規模な事前トレーニングと大規模なトレーニングの要求に悩まされる。
このような制約を緩和するために,画像モデルに"\textit{Attention Map (AM) Flow}"を提案する。このコンテキストでは,カメラの動きに応じて,AMフローを識別する手法を2つ提案する。AMフローは空間的および時間的処理の分離を可能にすると同時に,時空間的処理(ビデオモデルなど)を併用することで,時間的処理の高速化を実現している。パラメータ効率のよい変換学習において,AMフローを事前調整された画像モデルに組み込むためのアダプタであるAdaptersは,フルファインタニングの必要性を緩和する。
我々の研究はより早く収束し、訓練に必要なエポックの数を減らします。
さらに、一般的な行動認識データセット上で、最先端の結果を得ることのできる画像モデルも提供した。
これによりトレーニング時間が短縮され、事前トレーニングが簡単になる。
我々は、Kineetics-400、Something v2、Toyota Smarthomeのデータセットについて実験を行い、最先端または同等の結果を示す。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - FE-Adapter: Adapting Image-based Emotion Classifiers to Videos [21.294212686294568]
本稿では,映像タスクの微調整を効率よく行うために設計された表情適応器(FE-Adapter)について述べる。
FE-Adapterは、パフォーマンスと効率の両方で、既存の微調整とビデオの感情モデルにマッチしたり、超えたりできる。
論文 参考訳(メタデータ) (2024-08-05T12:27:28Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。