Fugu-MT 論文翻訳(概要): Efficient training for future video generation based on hierarchical disentangled representation of latent variables

論文の概要: Efficient training for future video generation based on hierarchical disentangled representation of latent variables

arxiv url: http://arxiv.org/abs/2106.03502v2
Date: Tue, 8 Jun 2021 15:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 11:32:31.779572
Title: Efficient training for future video generation based on hierarchical disentangled representation of latent variables
Title（参考訳）: 潜在変数の階層的不整合表現に基づく将来の映像生成のための効率的な訓練
Authors: Naoya Fushishita, Antonio Tejero-de-Pablos, Yusuke Mukuta, Tatsuya Harada
Abstract要約: 本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。 1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
参考スコア（独自算出の注目度）: 66.94698064734372
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating videos predicting the future of a given sequence has been an area of active research in recent years. However, an essential problem remains unsolved: most of the methods require large computational cost and memory usage for training. In this paper, we propose a novel method for generating future prediction videos with less memory usage than the conventional methods. This is a critical stepping stone in the path towards generating videos with high image quality, similar to that of generated images in the latest works in the field of image generation. We achieve high-efficiency by training our method in two stages: (1) image reconstruction to encode video frames into latent variables, and (2) latent variable prediction to generate the future sequence. Our method achieves an efficient compression of video into low-dimensional latent variables by decomposing each frame according to its hierarchical structure. That is, we consider that video can be separated into background and foreground objects, and that each object holds time-varying and time-independent information independently. Our experiments show that the proposed method can efficiently generate future prediction videos, even for complex datasets that cannot be handled by previous methods.
Abstract（参考訳）: 与えられたシーケンスの将来を予測するビデオの生成は、近年活発な研究領域となっている。しかし、本質的な問題は未解決のままであり、ほとんどの方法は大きな計算コストとトレーニングのためのメモリ使用を必要とする。本稿では,従来の手法よりも少ないメモリ使用量で将来の予測映像を生成する新しい手法を提案する。これは、画像生成分野における最新の作品における生成画像と同様、高画質のビデオ生成への道のりにおける重要なステップストーンである。本手法は,(1)ビデオフレームを潜在変数にエンコードする画像再構成,(2)潜在変数予測によるシーケンス生成の2段階において高い効率を実現する。本手法は,各フレームを階層構造に従って分解することにより,ビデオの低次元潜在変数への効率的な圧縮を実現する。すなわち、ビデオは背景オブジェクトと前景オブジェクトに分離でき、各オブジェクトは時間変化と時間に依存しない情報を独立に保持できると考える。提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。

関連論文リスト

Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation [11.77588746719272]
本稿では、VLFM(Video Latent Flow Matching)と呼ばれる効率的なビデオモデリングプロセスについて考察する。提案手法は,時間依存の映像フレームにデコード可能な潜在パッチのキャプション誘導流れをモデル化し,既存の強い事前学習画像生成モデルに依存する。提案手法の有効性を示すために,複数のテキスト・ビデオ・データセットの実験を行った。
論文参考訳（メタデータ） (2025-02-01T17:40:11Z)
Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文参考訳（メタデータ） (2024-12-12T18:59:34Z)
Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction [43.16308241800144]
本稿では,映像を連続的な多次元プロセスとして扱う新しいモデルクラスを提案する。我々は、KTH、BAIR、Human3.6M、UCF101などのベンチマークデータセットで検証された、ビデオ予測における最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-12-06T10:34:50Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Grid Diffusion Models for Text-to-Video Generation [2.531998650341267]
既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。アーキテクチャにおける時間次元を伴わないテキスト・ビデオ生成と大規模なテキスト・ビデオ・ペア・データセットのための,単純だが効果的な新しいグリッド拡散法を提案する。提案手法は,定量評価と定性評価の両方において既存手法より優れている。
論文参考訳（メタデータ） (2024-03-30T03:50:43Z)
Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文参考訳（メタデータ） (2023-12-01T14:03:30Z)
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文参考訳（メタデータ） (2022-09-15T08:41:57Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)
Video Generation from Text Employing Latent Path Construction for Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文参考訳（メタデータ） (2021-07-29T06:28:20Z)
PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文参考訳（メタデータ） (2021-03-21T06:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。