Fugu-MT 論文翻訳(概要): REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents

論文の概要: REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents

arxiv url: http://arxiv.org/abs/2411.13552v1
Date: Wed, 20 Nov 2024 18:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.570843
Title: REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents
Title（参考訳）: 1024$\times$1024動画を16秒以内に生成!
Authors: Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang,
Abstract要約: 大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
参考スコア（独自算出の注目度）: 110.41795676048835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Commercial video generation models have exhibited realistic, high-fidelity results but are still restricted to limited access. One crucial obstacle for large-scale applications is the expensive training and inference cost. In this paper, we argue that videos contain much more redundant information than images, thus can be encoded by very few motion latents based on a content image. Towards this goal, we design an image-conditioned VAE to encode a video to an extremely compressed motion latent space. This magic Reducio charm enables 64x reduction of latents compared to a common 2D VAE, without sacrificing the quality. Training diffusion models on such a compact representation easily allows for generating 1K resolution videos. We then adopt a two-stage video generation paradigm, which performs text-to-image and text-image-to-video sequentially. Extensive experiments show that our Reducio-DiT achieves strong performance in evaluation, though trained with limited GPU resources. More importantly, our method significantly boost the efficiency of video LDMs both in training and inference. We train Reducio-DiT in around 3.2K training hours in total and generate a 16-frame 1024*1024 video clip within 15.5 seconds on a single A100 GPU. Code released at https://github.com/microsoft/Reducio-VAE .
Abstract（参考訳）: 商用ビデオ生成モデルは、現実的で高忠実な結果を示してきたが、それでも限られたアクセスに制限されている。大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。本稿では,ビデオが画像よりもはるかに冗長な情報を含んでいることを論じる。この目的に向けて,映像条件付きVAEを設計し,映像を非常に圧縮された静止空間に符号化する。このマジックリダミオチャームは、品質を犠牲にすることなく、一般的な2D VAEと比較して64倍の潜伏量を削減できる。このようなコンパクトな表現による拡散モデルの訓練は、容易に1K解像度のビデオを生成することができる。次に、2段階のビデオ生成パラダイムを採用し、テキスト・ツー・イメージとテキスト・ツー・ビデオを逐次実行する。大規模な実験では、限られたGPUリソースでトレーニングされているにも関わらず、我々のReduceio-DiTは評価において高いパフォーマンスを実現している。さらに,本手法は,トレーニングと推論の両方において,ビデオLDMの効率を大幅に向上させる。我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。 https://github.com/microsoft/Reducio-VAE でリリースされた。

関連論文リスト

GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field [7.977026024810772]
ビデオの暗黙の神経表現は、新しくて有望なビデオ表現として認識されている。本稿では,新しい2次元ガウス映像表現であるGSVRを提案し,Bunny上で800FPS以上,35PSNR以上を達成している。本手法は既存の手法よりもはるかに高速に収束し,他の手法に比べて10倍高速に復号できる。
論文参考訳（メタデータ） (2025-07-08T02:13:12Z)
TurboVSR: Fantastic Video Upscalers and Where to Find Them [33.83721799307721]
拡散に基づく生成モデルは、ビデオ超解像(VSR)タスクにおいて例外的な可能性を証明している。超高効率拡散ベースビデオ超解像モデルであるTurboVSRを提案する。 TurboVSRは最先端のVSR方式と同等に動作し、100倍以上高速で、2秒の1080pビデオを処理するのにわずか7秒しかかからない。
論文参考訳（メタデータ） (2025-06-30T08:24:13Z)
GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文参考訳（メタデータ） (2025-03-06T11:31:08Z)
Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-12-23T18:58:24Z)
VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文参考訳（メタデータ） (2024-12-23T17:16:58Z)
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。 CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文参考訳（メタデータ） (2024-03-21T05:48:48Z)
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting [27.33121386538575]
Inlicit Neural representations (INRs) は画像の表現と圧縮で大成功を収めた。しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。本稿では,2次元ガウススプラッティングによる画像表現と圧縮の基盤となるパラダイムであるガウス画像を提案する。
論文参考訳（メタデータ） (2024-03-13T14:02:54Z)
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文参考訳（メタデータ） (2024-02-22T18:55:08Z)
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文参考訳（メタデータ） (2023-10-16T19:03:19Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文参考訳（メタデータ） (2022-11-20T16:40:31Z)
Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文参考訳（メタデータ） (2022-10-06T15:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。