Fugu-MT 論文翻訳(概要): Diffusion Models for Video Prediction and Infilling

論文の概要: Diffusion Models for Video Prediction and Infilling

arxiv url: http://arxiv.org/abs/2206.07696v1
Date: Wed, 15 Jun 2022 17:44:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-16 12:49:33.708513
Title: Diffusion Models for Video Prediction and Infilling
Title（参考訳）: 映像予測と埋め込みのための拡散モデル
Authors: Tobias H\"oppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi
Abstract要約: 本稿では,Random-Mask Video Diffusion (RaMViD)を提案する。マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。我々は,ビデオ予測のためのベンチマークデータセットと,競争力のある結果を得たビデオ生成のためのベンチマークデータセットを2つ評価した。
参考スコア（独自算出の注目度）: 27.246449347832108
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To predict and anticipate future outcomes or reason about missing information in a sequence is a key ability for agents to be able to make intelligent decisions. This requires strong temporally coherent generative capabilities. Diffusion models have shown huge success in several generative tasks lately, but have not been extensively explored in the video domain. We present Random-Mask Video Diffusion (RaMViD), which extends image diffusion models to videos using 3D convolutions, and introduces a new conditioning technique during training. By varying the mask we condition on, the model is able to perform video prediction, infilling and upsampling. Since we do not use concatenation to condition on a mask, as done in most conditionally trained diffusion models, we are able to decrease the memory footprint. We evaluated the model on two benchmark datasets for video prediction and one for video generation on which we achieved competitive results. On Kinetics-600 we achieved state-of-the-art for video prediction.
Abstract（参考訳）: エージェントがインテリジェントな決定を下す上で重要な能力である、シーケンス内の情報不足に関する将来の結果や理由を予測し、予測する。これは強い時間的コヒーレントな生成能力を必要とする。拡散モデルは最近、いくつかの生成タスクで大きな成功を収めているが、ビデオ領域では広く研究されていない。本研究では,画像拡散モデルを3次元畳み込みを用いてビデオに拡張するランダムマスクビデオ拡散(ramvid)を提案し,トレーニング中の新しい条件付け手法を提案する。マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。マスクの条件付けに結合を用いないため、ほとんどの条件付き拡散モデルで行われているように、メモリフットプリントを削減できる。本研究では,ビデオ予測のための2つのベンチマークデータセットと,競合する結果を得たビデオ生成のためのモデルを評価した。 Kinetics-600では、ビデオ予測の最先端を達成しました。

関連論文リスト

Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。 AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。 AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-01T13:48:31Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)
SinFusion: Training Diffusion Models on a Single Image or Video [11.473177123332281]
拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
論文参考訳（メタデータ） (2022-11-21T18:59:33Z)
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文参考訳（メタデータ） (2022-09-15T08:41:57Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。