論文の概要: Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts
- arxiv url: http://arxiv.org/abs/2304.10505v1
- Date: Fri, 24 Mar 2023 17:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 03:58:52.312730
- Title: Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts
- Title(参考訳): ビデオ予習型変圧器:予習型エキスパートのマルチモーダル混合
- Authors: Kastan Day, Daniel Christl, Rohan Salvi, Pranav Sriram
- Abstract要約: ビデオ事前学習トランスについて紹介する。
4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
- 参考スコア(独自算出の注目度): 2.457872341625575
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Video Pre-trained Transformer. VPT uses four SOTA encoder models
from prior work to convert a video into a sequence of compact embeddings. Our
backbone, based on a reference Flan-T5-11B architecture, learns a universal
representation of the video that is a non-linear sum of the encoder models. It
learns using an autoregressive causal language modeling loss by predicting the
words spoken in YouTube videos. Finally, we evaluate on standard downstream
benchmarks by training fully connected prediction heads for each task. To the
best of our knowledge, this is the first use of multiple frozen SOTA models as
encoders in an "embedding -> backbone -> prediction head" design pattern - all
others have trained their own joint encoder models. Additionally, we include
more modalities than the current SOTA, Merlot Reserve, by adding explicit Scene
Graph information. For these two reasons, we believe it could combine the
world's best open-source models to achieve SOTA performance. Initial
experiments demonstrate the model is learning appropriately, but more
experimentation and compute is necessary, and already in progress, to realize
our loftier goals. Alongside this work, we build on the YT-20M dataset,
reproducing it and adding 25,000 personally selected YouTube videos to its
corpus. All code and model checkpoints are open sourced under a standard MIT
license.
- Abstract(参考訳): ビデオプリトレーニングトランスを提案する。
VPTは以前の作業から4つのSOTAエンコーダモデルを使用して、ビデオをコンパクトな埋め込みのシーケンスに変換する。
我々のバックボーンは、参照Flan-T5-11Bアーキテクチャに基づいて、エンコーダモデルの非線形和であるビデオの普遍的な表現を学習する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
最後に、各タスクの完全連結予測ヘッドをトレーニングすることにより、標準下流ベンチマークを評価する。
私たちの知る限りでは、これは"embedding -> backbone -> prediction head"デザインパターンにおけるエンコーダとして、複数の凍結したsomaモデルの最初の使用です。
さらに、明示的なScene Graph情報を追加することで、現在のSOTAであるMelot Reserveよりも多くのモダリティが含まれています。
これら2つの理由から、SOTAのパフォーマンスを達成するために、世界で最も優れたオープンソースモデルを組み合わせることができると考えています。
最初の実験は、モデルを適切に学習していることを実証するが、より多くの実験と計算が必要である。
この作業に加えて、私たちはYT-20Mデータセットを構築し、それを再現し、25,000人の個人が選んだYouTubeビデオをコーパスに追加しました。
すべてのコードとモデルチェックポイントは、標準のMITライセンスの下でオープンソース化されている。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。