論文の概要: WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception
- arxiv url: http://arxiv.org/abs/2508.15720v1
- Date: Thu, 21 Aug 2025 16:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.416233
- Title: WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception
- Title(参考訳): WorldWeaver: リッチ・パーセプションによる長距離ビデオワールドの生成
- Authors: Zhiheng Liu, Xueqing Deng, Shoufa Chen, Angtian Wang, Qiushan Guo, Mingfei Han, Zeyue Xue, Mengzhao Chen, Ping Luo, Linjie Yang,
- Abstract要約: 現在の手法は主にRGB信号に依存しており、長い時間にわたってオブジェクト構造や動きに誤差が蓄積される。
我々は,RGBフレームと知覚条件を協調的にモデル化する,長期ビデオ生成のための堅牢なフレームワークであるWorldWeaverを紹介した。
まず、統合表現から知覚条件と色情報を共同で予測することにより、時間的一貫性と動きのダイナミクスを著しく向上させる。
- 参考スコア(独自算出の注目度): 40.96323549891244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative video modeling has made significant strides, yet ensuring structural and temporal consistency over long sequences remains a challenge. Current methods predominantly rely on RGB signals, leading to accumulated errors in object structure and motion over extended durations. To address these issues, we introduce WorldWeaver, a robust framework for long video generation that jointly models RGB frames and perceptual conditions within a unified long-horizon modeling scheme. Our training framework offers three key advantages. First, by jointly predicting perceptual conditions and color information from a unified representation, it significantly enhances temporal consistency and motion dynamics. Second, by leveraging depth cues, which we observe to be more resistant to drift than RGB, we construct a memory bank that preserves clearer contextual information, improving quality in long-horizon video generation. Third, we employ segmented noise scheduling for training prediction groups, which further mitigates drift and reduces computational cost. Extensive experiments on both diffusion- and rectified flow-based models demonstrate the effectiveness of WorldWeaver in reducing temporal drift and improving the fidelity of generated videos.
- Abstract(参考訳): 生成的ビデオモデリングは大きな進歩を遂げているが、長いシーケンスに対する構造的および時間的一貫性を保証することは依然として課題である。
現在の手法は主にRGB信号に依存しており、長い時間にわたってオブジェクト構造や動きに誤差が蓄積される。
これらの問題に対処するために、我々は、RGBフレームと知覚条件を統合されたロングホライゾン・モデリング・スキーム内で共同でモデル化する、ロングビデオ生成のための堅牢なフレームワークであるWorldWeaverを紹介した。
私たちのトレーニングフレームワークには3つの大きな利点があります。
第一に、統一表現から知覚条件と色情報を共同予測することにより、時間的一貫性と動きのダイナミクスを著しく向上させる。
第2に,RGBよりもドリフトに抵抗性が強い深度手がかりを活用することにより,より明瞭な文脈情報を保存するメモリバンクを構築し,長期ビデオ生成における品質向上を図る。
第三に、予測群を訓練するために分割ノイズスケジューリングを採用し、ドリフトをさらに軽減し、計算コストを削減する。
拡散流モデルと修正流モデルの両方に対する大規模な実験により、WorldWeaverが時間的ドリフトを低減し、生成されたビデオの忠実度を改善する効果が示された。
関連論文リスト
- Super-Resolution Generative Adversarial Networks based Video Enhancement [0.40964539027092906]
本研究は、通常のシングルイメージSIS(SRGAN)構造を拡張して、対数データを扱うことで、ビデオ超解像への拡張アプローチを導入する。
3次元非局所ブロックを組み込んだ修正フレームワークが開発され、空間次元と時間次元の両方で関係を捉えることができる。
その結果、従来の単一画像法と比較して、時間的コヒーレンス、よりシャープなテクスチャ、視覚的アーティファクトが向上した。
論文 参考訳(メタデータ) (2025-05-14T20:16:51Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [16.826081397057774]
VGDFRは動的遅延フレームレートを持つ拡散型ビデオ生成のためのトレーニング不要のアプローチである。
VGDFRは、画質の劣化を最小限に抑えながら、ビデオ生成において最大3倍の高速化を実現することができることを示す。
論文 参考訳(メタデータ) (2025-04-16T17:09:13Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A
Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。
拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。
ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文 参考訳(メタデータ) (2021-03-23T05:19:35Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。