論文の概要: SViTT: Temporal Learning of Sparse Video-Text Transformers
- arxiv url: http://arxiv.org/abs/2304.08809v1
- Date: Tue, 18 Apr 2023 08:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:35:01.661133
- Title: SViTT: Temporal Learning of Sparse Video-Text Transformers
- Title(参考訳): SViTT: スパースビデオテキスト変換器の時間学習
- Authors: Yi Li, Kyle Min, Subarna Tripathi, Nuno Vasconcelos
- Abstract要約: SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
- 参考スコア(独自算出の注目度): 65.93031164906812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do video-text transformers learn to model temporal relationships across
frames? Despite their immense capacity and the abundance of multimodal training
data, recent work has revealed the strong tendency of video-text models towards
frame-based spatial representations, while temporal reasoning remains largely
unsolved. In this work, we identify several key challenges in temporal learning
of video-text transformers: the spatiotemporal trade-off from limited network
size; the curse of dimensionality for multi-frame modeling; and the diminishing
returns of semantic information by extending clip length. Guided by these
findings, we propose SViTT, a sparse video-text architecture that performs
multi-frame reasoning with significantly lower cost than naive transformers
with dense attention. Analogous to graph-based networks, SViTT employs two
forms of sparsity: edge sparsity that limits the query-key communications
between tokens in self-attention, and node sparsity that discards uninformative
visual tokens. Trained with a curriculum which increases model sparsity with
the clip length, SViTT outperforms dense transformer baselines on multiple
video-text retrieval and question answering benchmarks, with a fraction of
computational cost. Project page: http://svcl.ucsd.edu/projects/svitt.
- Abstract(参考訳): ビデオテキストトランスフォーマーはフレーム間の時間関係をモデル化するだろうか?
膨大な容量とマルチモーダルトレーニングデータにもかかわらず、近年の研究では、フレームベースの空間表現に対するビデオテキストモデルの強い傾向が明らかにされている。
本研究では,ビデオテキストトランスフォーマーの時間的学習における重要な課題として,限られたネットワークサイズからの時空間トレードオフ,マルチフレームモデリングにおける次元性の呪い,クリップ長の延長による意味情報の回復の減少などを挙げる。
これらの知見に導かれたSViTTは,多フレーム推論を行うための疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
グラフベースのネットワークと同様、svittは2種類のスパーシティを採用している。エッジスパーシティ(edge sparsity)は、自己アテンションでトークン間のクエリキー通信を制限する。
クリップの長さでモデルのスパーシティを高めるカリキュラムでトレーニングされたsvittは、複数のビデオテキスト検索と質問応答ベンチマークで密度の高いトランスフォーマーベースラインをわずかに計算コストで上回っている。
プロジェクトページ: http://svcl.ucsd.edu/projects/svitt。
関連論文リスト
- FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。