Fugu-MT 論文翻訳(概要): Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation

論文の概要: Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation

arxiv url: http://arxiv.org/abs/2211.12824v1
Date: Wed, 23 Nov 2022 10:14:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 13:56:03.764341
Title: Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation
Title（参考訳）: 何が起きたのか:マルチモーダルマスクビデオ生成によるテキストガイドビデオの完成
Authors: Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell
Abstract要約: そこで本研究では,命令で案内された部分フレームから映像を生成することをモデルに要求する,新しいタスクであるテキスト誘導ビデオ補完(TVC)を提案する。次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
参考スコア（独自算出の注目度）: 82.26026492545533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating a video given the first several static frames is challenging as it anticipates reasonable future frames with temporal coherence. Besides video prediction, the ability to rewind from the last frame or infilling between the head and tail is also crucial, but they have rarely been explored for video completion. Since there could be different outcomes from the hints of just a few frames, a system that can follow natural language to perform video completion may significantly improve controllability. Inspired by this, we introduce a novel task, text-guided video completion (TVC), which requests the model to generate a video from partial frames guided by an instruction. We then propose Multimodal Masked Video Generation (MMVG) to address this TVC task. During training, MMVG discretizes the video frames into visual tokens and masks most of them to perform video completion from any time point. At inference time, a single MMVG model can address all 3 cases of TVC, including video prediction, rewind, and infilling, by applying corresponding masking conditions. We evaluate MMVG in various video scenarios, including egocentric, animation, and gaming. Extensive experimental results indicate that MMVG is effective in generating high-quality visual appearances with text guidance for TVC.
Abstract（参考訳）: 最初のいくつかの静的フレームを与えられたビデオを生成することは、時間的コヒーレンスで合理的な将来のフレームを予測できるため、難しい。ビデオ予測の他に、最後のフレームから巻き戻したり、頭と尾の間に埋め込む能力も重要であるが、ビデオ補完のために探索されることはめったにない。ほんの数フレームのヒントから異なる結果が得られる可能性があるため、自然言語に従ってビデオ補完を行うシステムは、制御性を大幅に改善する可能性がある。そこで本研究では,テキスト誘導ビデオ補完(TVC)という新たなタスクを導入し,命令で案内された部分フレームから映像を生成することをモデルに要求する。次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。トレーニング中、MMVGはビデオフレームを視覚トークンとマスクに識別し、そのほとんどが任意の時点からビデオ補完を行う。推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。我々は、エゴセントリック、アニメーション、ゲームなど、様々なビデオシナリオでMMVGを評価する。広汎な実験結果から,MMVGはTVCのテキスト誘導による高品質な視覚的外観の生成に有効であることが示唆された。

関連論文リスト

Taming Teacher Forcing for Masked Autoregressive Video Generation [63.477471494341955]
我々は、フレーム内生成のためのマスク付きモデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドビデオ生成フレームワークMAGIを紹介する。我々の重要な革新である完全教師強制(CTF)は、マスクされたフレームではなく、完全な観察フレーム上の条件付きフレームである。CTFは、MTFを著しく上回り、第1フレーム条件付きビデオ予測において、FVDスコアが+23%向上した。実験によると、MAGIは16フレームまで訓練しても、100フレームを超える長いコヒーレントなビデオシーケンスを生成することができ、スケーラブルで高品質なビデオ生成の可能性を強調している。
論文参考訳（メタデータ） (2025-01-21T18:59:31Z)
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-16T15:37:22Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。提案手法は,1～12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文参考訳（メタデータ） (2022-05-19T20:58:05Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。 HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。 HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文参考訳（メタデータ） (2020-05-01T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。