論文の概要: Paris 2.0: A Decentralized Diffusion Model for Video Generation
- arxiv url: http://arxiv.org/abs/2605.26064v2
- Date: Wed, 27 May 2026 11:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.065413
- Title: Paris 2.0: A Decentralized Diffusion Model for Video Generation
- Title(参考訳): Paris 2.0: ビデオ生成のための分散拡散モデル
- Authors: Ali Rouzbayani, Bidhan Roy, Marcos Villagra, Zhiying Jiang,
- Abstract要約: 分散計算によって事前学習された最初のビデオ生成モデルであるParis 2.0を提示する。
Paris 2.0はFrechet Video Distance (FVD)を561.04から279.01に削減し、2.0倍改善し、CLIPのテキストビデオ類似性と美的スコアを引き上げた。
- 参考スコア(独自算出の注目度): 9.102774018857781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Paris 2.0, the first video generation model pre-trained through decentralized computation. Its training recipe builds upon Paris 1.0 (arXiv:2510.03434), the first ever open-weight Decentralized Diffusion Model (DDM), which showed that image generation can be trained without a monolithic GPU cluster. However, temporally coherent video generation had remained an open problem under decentralized training, and Paris 2.0 closes it. In low-resolution text-to-video training, against a monolithic model trained on the same data under a matched total compute budget, Paris 2.0 cuts Frechet Video Distance (FVD) from 561.04 to 279.01, a ~2.0x improvement, and lifts CLIP text-video similarity and aesthetic score.
- Abstract(参考訳): 分散計算によって事前学習された最初のビデオ生成モデルであるParis 2.0を提示する。
トレーニングレシピはParis 1.0(arXiv:2510.03434)に基づいて構築されている。これは、モノリシックGPUクラスタなしで画像生成をトレーニングできることを示す最初のオープンウェイトな分散拡散モデル(DDM)である。
しかし、時間的コヒーレントなビデオ生成は、分散トレーニングの下では未解決の問題のままであり、パリ2.0はそれを閉じた。
低解像度のテキスト・ビデオ・トレーニングでは、一致した計算予算の下で同じデータでトレーニングされたモノリシックモデルに対して、Paris 2.0はFrechet Video Distance (FVD)を561.04から279.01に削減し、約2.0倍改善し、CLIPのテキスト・ビデオ類似性と美的スコアを引き上げている。
関連論文リスト
- Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model [52.79436545460808]
本稿では,人中心生成のためのオープンソースオーディオビデオ生成基盤モデルdaVinci-MagiHumanを紹介する。
DaVinci-MagiHumanは、単一ストリームトランスフォーマーを使用して、同期ビデオとオーディオを共同で生成する。
中国語(マンダリン語とカントン語)、英語、日本語、韓国語、ドイツ語、フランス語の多言語音声生成をサポートする。
論文 参考訳(メタデータ) (2026-03-23T13:49:06Z) - Paris: A Decentralized Trained Open-Weight Diffusion Model [11.120199309935435]
分散計算によって完全に事前訓練された最初の公開拡散モデルであるParisを提示する。
Paris氏は、インフラストラクチャを集中的に調整することなく、高品質のテキスト・ツー・イメージ生成が実現可能であることを実証している。
論文 参考訳(メタデータ) (2025-10-03T18:53:12Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。
4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文 参考訳(メタデータ) (2023-03-24T17:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。