論文の概要: Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video
Learning
- arxiv url: http://arxiv.org/abs/2212.03229v1
- Date: Tue, 6 Dec 2022 18:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:17:15.736656
- Title: Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video
Learning
- Title(参考訳): ビデオvits再考: 画像とビデオ学習のための疎ビデオチューブ
- Authors: AJ Piergiovanni and Weicheng Kuo and Anelia Angelova
- Abstract要約: 本稿では,ViTエンコーダを効率的なビデオモデルに変換するための簡単な手法を提案する。
入力をわずかにサンプリングすることで、モデルは両方の入力からトレーニングと推論を行うことができる。
モデルはSOTAの結果を達成し、コードはオープンソース化される。
- 参考スコア(独自算出の注目度): 53.446599611203474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple approach which can turn a ViT encoder into an efficient
video model, which can seamlessly work with both image and video inputs. By
sparsely sampling the inputs, the model is able to do training and inference
from both inputs. The model is easily scalable and can be adapted to
large-scale pre-trained ViTs without requiring full finetuning. The model
achieves SOTA results and the code will be open-sourced.
- Abstract(参考訳): 本稿では,vitエンコーダを効率的な映像モデルに変換し,画像入力と映像入力の両方をシームレスに処理できる簡易な手法を提案する。
入力をわずかにサンプリングすることで、モデルは両方の入力からトレーニングと推論を行うことができる。
モデルは容易にスケーラブルで、完全な微調整を必要とせず、大規模で事前訓練されたViTに適応することができる。
モデルはSOTAの結果を達成し、コードはオープンソース化される。
関連論文リスト
- SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。