論文の概要: Dynamic and Compressive Adaptation of Transformers From Images to Videos
- arxiv url: http://arxiv.org/abs/2408.06840v2
- Date: Wed, 14 Aug 2024 01:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:12:37.714834
- Title: Dynamic and Compressive Adaptation of Transformers From Images to Videos
- Title(参考訳): 映像から映像への変換器の動的・圧縮的適応
- Authors: Guozhen Zhang, Jingyu Liu, Shengming Cao, Xiaotong Zhao, Kevin Zhao, Kai Ma, Limin Wang,
- Abstract要約: InTIは動的フレーム間トークン補間を用いた圧縮画像から映像への適応のための新しい手法である。
Kinetics-400 では、InTI が 87.1 の最高-1 の精度に達し、GFLOP の37.5% の顕著な減少がある。
追加の時間モジュールと組み合わせると、InTIは最高1の精度87.6で、GFLOPsは37%減少する。
- 参考スコア(独自算出の注目度): 22.515273344973355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the remarkable success of pre-trained Vision Transformers (ViTs) from image-text matching has sparked an interest in image-to-video adaptation. However, most current approaches retain the full forward pass for each frame, leading to a high computation overhead for processing entire videos. In this paper, we present InTI, a novel approach for compressive image-to-video adaptation using dynamic Inter-frame Token Interpolation. InTI aims to softly preserve the informative tokens without disrupting their coherent spatiotemporal structure. Specifically, each token pair at identical positions within neighbor frames is linearly aggregated into a new token, where the aggregation weights are generated by a multi-scale context-aware network. In this way, the information of neighbor frames can be adaptively compressed in a point-by-point manner, thereby effectively reducing the number of processed frames by half each time. Importantly, InTI can be seamlessly integrated with existing adaptation methods, achieving strong performance without extra-complex design. On Kinetics-400, InTI reaches a top-1 accuracy of 87.1 with a remarkable 37.5% reduction in GFLOPs compared to naive adaptation. When combined with additional temporal modules, InTI achieves a top-1 accuracy of 87.6 with a 37% reduction in GFLOPs. Similar conclusions have been verified in other common datasets.
- Abstract(参考訳): 近年,画像テキストマッチングによるViT(Pre-trained Vision Transformer)の顕著な成功により,画像から映像への適応への関心が高まっている。
しかし、現在のほとんどのアプローチは各フレームのフルフォワードパスを保持しており、ビデオ全体の処理に高い計算オーバーヘッドをもたらす。
本稿では,動的フレーム間Token補間を用いた圧縮画像から映像への適応手法InTIを提案する。
InTIは、コヒーレントな時空間構造を乱すことなく、情報的トークンをソフトに保存することを目指している。
具体的には、隣接するフレーム内の同一位置にある各トークンペアを線形に新しいトークンに集約し、その集約重みはマルチスケールのコンテキスト認識ネットワークによって生成される。
これにより、隣接するフレームの情報をポイント・バイ・ポイントで適応的に圧縮し、処理されたフレームの数を1回に半分減らすことができる。
重要なことは、InTIは既存のアダプティブメソッドとシームレスに統合することができ、複雑な設計をせずに強力なパフォーマンスを実現することができる。
Kinetics-400 では、InTI は 87.1 の最高-1 の精度に達し、GFLOP は単純適応に比べて37.5% 減少している。
追加の時間モジュールと組み合わせると、InTIは最高1の精度87.6で、GFLOPsは37%減少する。
同様の結論は、他の一般的なデータセットで検証されている。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - FILM: Frame Interpolation for Large Motion [20.04001872133824]
本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-02-10T08:48:18Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Deep Learning for Robust Motion Segmentation with Non-Static Cameras [0.0]
本論文では,MOSNET と呼ばれる非静的なカメラで撮影するモーションセグメンテーションのための新たな DCNN ベースのアプローチを提案する。
他のアプローチは空間的または時間的文脈に焦点を当てているが、提案手法は3d畳み込みをビデオフレームの時間的特徴を分解する重要な技術として用いる。
このネットワークは、シーン中に画像コンテンツが大幅に変化する静電カメラで撮影されたシーンでうまく機能します。
論文 参考訳(メタデータ) (2021-02-22T11:58:41Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。