論文の概要: Dual-path Adaptation from Image to Video Transformers
- arxiv url: http://arxiv.org/abs/2303.09857v1
- Date: Fri, 17 Mar 2023 09:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:01:57.908313
- Title: Dual-path Adaptation from Image to Video Transformers
- Title(参考訳): 映像から映像変換器へのデュアルパス適応
- Authors: Jungin Park, Jiyoung Lee, Kwanghoon Sohn
- Abstract要約: ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
- 参考スコア(独自算出の注目度): 62.056751480114784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we efficiently transfer the surpassing representation power of
the vision foundation models, such as ViT and Swin, for video understanding
with only a few trainable parameters. Previous adaptation methods have
simultaneously considered spatial and temporal modeling with a unified
learnable module but still suffered from fully leveraging the representative
capabilities of image transformers. We argue that the popular dual-path
(two-stream) architecture in video models can mitigate this problem. We propose
a novel DualPath adaptation separated into spatial and temporal adaptation
paths, where a lightweight bottleneck adapter is employed in each transformer
block. Especially for temporal dynamic modeling, we incorporate consecutive
frames into a grid-like frameset to precisely imitate vision transformers'
capability that extrapolates relationships between tokens. In addition, we
extensively investigate the multiple baselines from a unified perspective in
video understanding and compare them with DualPath. Experimental results on
four action recognition benchmarks prove that pretrained image transformers
with DualPath can be effectively generalized beyond the data domain.
- Abstract(参考訳): 本稿では,ViT や Swin などの視覚基礎モデルの超越する表現力を,トレーニング可能なパラメータの少ないビデオ理解のために効率的に転送する。
従来の適応手法では、学習可能なモジュールを統一した空間的・時間的モデリングが同時に検討されてきたが、画像トランスフォーマーの代表的能力の活用に悩まされている。
ビデオモデルにおける一般的なデュアルパス(2ストリーム)アーキテクチャは、この問題を緩和できると主張している。
本稿では,各変圧器ブロックに軽量なボトルネックアダプタを用いた,空間的および時間的適応経路に分離した新しいデュアルパス適応法を提案する。
特に時間的動的モデリングでは,連続するフレームをグリッド状のフレームセットに組み込んで,トークン間の関係を外挿する視覚トランスフォーマーの能力を正確に模倣する。
さらに,ビデオ理解の統一的な視点から複数のベースラインを幅広く検討し,それらをDualPathと比較した。
4つの行動認識ベンチマークの実験結果から、DualPathを用いた事前学習画像変換器はデータ領域を超えて効果的に一般化できることが証明された。
関連論文リスト
- ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。