論文の概要: PatchBlender: A Motion Prior for Video Transformers
- arxiv url: http://arxiv.org/abs/2211.14449v1
- Date: Fri, 11 Nov 2022 14:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:42:35.623407
- Title: PatchBlender: A Motion Prior for Video Transformers
- Title(参考訳): PatchBlender:ビデオトランスフォーマーに先行するモーション
- Authors: Gabriele Prato, Yale Song, Janarthanan Rajendran, R Devon Hjelm, Neel
Joshi, Sarath Chandar
- Abstract要約: 我々は、学習可能なブレンディング関数であるPatchBlenderを紹介した。
本稿では,映像データの時間成分を符号化する視覚変換器の実現に成功していることを示す。
- 参考スコア(独自算出の注目度): 35.47505911122298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become one of the dominant architectures in the field of
computer vision. However, there are yet several challenges when applying such
architectures to video data. Most notably, these models struggle to model the
temporal patterns of video data effectively. Directly targeting this issue, we
introduce PatchBlender, a learnable blending function that operates over patch
embeddings across the temporal dimension of the latent space. We show that our
method is successful at enabling vision transformers to encode the temporal
component of video data. On Something-Something v2 and MOVi-A, we show that our
method improves the performance of a ViT-B. PatchBlender has the advantage of
being compatible with almost any Transformer architecture and since it is
learnable, the model can adaptively turn on or off the prior. It is also
extremely lightweight compute-wise, 0.005% the GFLOPs of a ViT-B.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンの分野で支配的なアーキテクチャの1つとなっている。
しかし、このようなアーキテクチャをビデオデータに適用する際の課題はいくつかある。
これらのモデルは、ビデオデータの時間的パターンを効果的にモデル化するのに苦労している。
この問題を直接対象とするpatchblenderは,潜在空間の時間的次元にまたがるパッチ埋め込み上で動作する学習可能なブレンディング関数である。
本稿では,映像データの時間成分を符号化する視覚変換器の実現に成功していることを示す。
また,Something v2 と MOVi-A について,本手法が ViT-B の性能を向上させることを示す。
patchblenderは、ほぼすべてのトランスフォーマーアーキテクチャと互換性があり、学習可能であるため、モデルは、事前のオン/オフを適応的に行うことができる。
また、非常に軽量で、VT-BのGFLOPは0.005%である。
関連論文リスト
- TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。