論文の概要: TDViT: Temporal Dilated Video Transformer for Dense Video Tasks
- arxiv url: http://arxiv.org/abs/2402.09257v1
- Date: Wed, 14 Feb 2024 15:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:58:00.978169
- Title: TDViT: Temporal Dilated Video Transformer for Dense Video Tasks
- Title(参考訳): tdvit:密集ビデオタスクのための時間拡張ビデオトランスフォーマ
- Authors: Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson
- Abstract要約: TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
- 参考スコア(独自算出の注目度): 35.16197118579414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep video models, for example, 3D CNNs or video transformers, have achieved
promising performance on sparse video tasks, i.e., predicting one result per
video. However, challenges arise when adapting existing deep video models to
dense video tasks, i.e., predicting one result per frame. Specifically, these
models are expensive for deployment, less effective when handling redundant
frames, and difficult to capture long-range temporal correlations. To overcome
these issues, we propose a Temporal Dilated Video Transformer (TDViT) that
consists of carefully designed temporal dilated transformer blocks (TDTB). TDTB
can efficiently extract spatiotemporal representations and effectively
alleviate the negative effect of temporal redundancy. Furthermore, by using
hierarchical TDTBs, our approach obtains an exponentially expanded temporal
receptive field and therefore can model long-range dynamics. Extensive
experiments are conducted on two different dense video benchmarks, i.e.,
ImageNet VID for video object detection and YouTube VIS for video instance
segmentation. Excellent experimental results demonstrate the superior
efficiency, effectiveness, and compatibility of our method. The code is
available at https://github.com/guanxiongsun/vfe.pytorch.
- Abstract(参考訳): ディープビデオモデル、例えば3d cnnやビデオトランスフォーマーは、ビデオの少ないタスク、すなわちビデオ当たりの結果を予測することで、有望なパフォーマンスを達成している。
しかし、既存のディープビデオモデルを高密度ビデオタスク、すなわちフレーム毎にひとつの結果を予測することには、課題が生じる。
特に、これらのモデルはデプロイに費用がかかり、冗長なフレームを扱う場合の効率が低く、長距離の時間的相関を捉えるのが難しい。
これらの問題を克服するために、慎重に設計された時間拡張トランスブロック(TDTB)からなるテンポラルDilated Video Transformer (TDViT)を提案する。
TDTBは時空間表現を効率的に抽出し、時空間冗長性の負の効果を効果的に緩和することができる。
さらに,階層的TDTBを用いて時間的受容場を指数関数的に拡張し,長距離力学をモデル化する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオインスタンスのセグメンテーションのためのYouTube VISという、2つの異なる高密度ビデオベンチマークで大規模な実験が行われた。
優れた実験結果から,本手法の効率,有効性,適合性が示された。
コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。
関連論文リスト
- Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。