論文の概要: Video-GPT via Next Clip Diffusion
- arxiv url: http://arxiv.org/abs/2505.12489v2
- Date: Wed, 21 May 2025 04:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.327196
- Title: Video-GPT via Next Clip Diffusion
- Title(参考訳): Next Clip DiffusionによるビデオGPT
- Authors: Shaobin Zhuang, Zhipeng Huang, Ying Zhang, Fangyikang Wang, Canmiao Fu, Binxin Yang, Chong Sun, Chen Li, Yali Wang,
- Abstract要約: GPTは自然言語処理において顕著な成功を収めた。
我々は映像を視覚世界モデリングの新しい言語として扱う。
本稿では,ビデオ-GPTの事前学習のための新しいクリップ拡散パラダイムを提案する。
- 参考スコア(独自算出の注目度): 14.832916520268105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPT has shown its remarkable success in natural language processing. However, the language sequence is not sufficient to describe spatial-temporal details in the visual world. Alternatively, the video sequence is good at capturing such details. Motivated by this fact, we propose a concise Video-GPT in this paper by treating video as new language for visual world modeling. By analogy to next token prediction in GPT, we introduce a novel next clip diffusion paradigm for pretraining Video-GPT. Different from the previous works, this distinct paradigm allows Video-GPT to tackle both short-term generation and long-term prediction, by autoregressively denoising the noisy clip according to the clean clips in the history. Extensive experiments show our Video-GPT achieves the state-of-the-art performance on video prediction, which is the key factor towards world modeling (Physics-IQ Benchmark: Video-GPT 34.97 vs. Kling 23.64 vs. Wan 20.89). Moreover, it can be well adapted on 6 mainstream video tasks in both video generation and understanding, showing its great generalization capacity in downstream. The project page is at https://zhuangshaobin.github.io/Video-GPT.github.io/.
- Abstract(参考訳): GPTは自然言語処理において顕著な成功を収めた。
しかし、言語シーケンスは視覚の世界における空間的時間的詳細を記述するのに十分ではない。
あるいは、ビデオシーケンスは、そのような詳細を捉えるのに長けている。
そこで本稿では,映像を視覚世界モデリングの新しい言語として扱うことで,簡潔なビデオGPTを提案する。
GPTの次のトークン予測に類似して、ビデオ-GPTの事前学習のための新しいクリップ拡散パラダイムを導入する。
従来と異なり、この異なるパラダイムにより、ビデオGPTは、歴史のクリーンクリップに従ってノイズの多いクリップを自己回帰的にデノベートすることで、短期的な生成と長期予測の両方に取り組むことができる。
広汎な実験により、我々のビデオGPTは映像予測における最先端のパフォーマンスを達成し、これは世界モデリングの鍵となる要素である(Physics-IQ Benchmark: Video-GPT 34.97 vs. Kling 23.64 vs. Wan 20.89)。
さらに、ビデオ生成と理解の両面で6つのメインストリームのビデオタスクにうまく適応でき、下流での大きな一般化能力を示す。
プロジェクトページはhttps://zhuangshaobin.github.io/Video-GPT.github.io/にある。
関連論文リスト
- ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT [1.614471032380076]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、未編集のビデオから特定の時間セグメントを特定することを目的としている。
既存のVTGモデルは、広範囲な注釈付きビデオテキストペアで訓練されている。
トレーニングや微調整を伴わないゼロショットVTGのためのGPT方式であるVTG-GPTを提案する。
論文 参考訳(メタデータ) (2024-03-04T14:22:02Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - WAIT: Feature Warping for Animation to Illustration video Translation using GANs [11.968412857420192]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Tell Me What Happened: Unifying Text-guided Video Completion via
Multimodal Masked Video Generation [82.26026492545533]
そこで本研究では,命令で案内された部分フレームから映像を生成することをモデルに要求する,新しいタスクであるテキスト誘導ビデオ補完(TVC)を提案する。
次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。
推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
論文 参考訳(メタデータ) (2022-11-23T10:14:12Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。