論文の概要: Consistency-Preserving Diverse Video Generation
- arxiv url: http://arxiv.org/abs/2602.15287v1
- Date: Tue, 17 Feb 2026 01:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.951154
- Title: Consistency-Preserving Diverse Video Generation
- Title(参考訳): コンシステンシー保存型ディバースビデオ生成
- Authors: Xinshuang Liu, Runfa Blark Li, Truong Nguyen,
- Abstract要約: 本稿では,フローマッチングビデオジェネレータのためのジョイントサンプリングフレームワークを提案する。
当社のアプローチでは,多様性駆動型更新を適用して,時間的一貫性の目標を減少させるコンポーネントのみを除去する。
最先端のテキスト・ビデオ・フローマッチングモデルによる実験は、強力なジョイントサンプリングベースラインに匹敵する多様性を示す。
- 参考スコア(独自算出の注目度): 5.784739104479214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video generation is expensive, so only a few samples are typically produced per prompt. In this low-sample regime, maximizing the value of each batch requires high cross-video diversity. Recent methods improve diversity for image generation, but for videos they often degrade within-video temporal consistency and require costly backpropagation through a video decoder. We propose a joint-sampling framework for flow-matching video generators that improves batch diversity while preserving temporal consistency. Our approach applies diversity-driven updates and then removes only the components that would decrease a temporal-consistency objective. To avoid image-space gradients, we compute both objectives with lightweight latent-space models, avoiding video decoding and decoder backpropagation. Experiments on a state-of-the-art text-to-video flow-matching model show diversity comparable to strong joint-sampling baselines while substantially improving temporal consistency and color naturalness. Code will be released.
- Abstract(参考訳): テキスト・ツー・ビデオ生成は高価であるため、通常、プロンプト毎に少数のサンプルが生成される。
この低サンプリング方式では、各バッチの価値を最大化するには、ビデオ間の多様性が高い。
近年の方法では画像生成の多様性が向上しているが,ビデオでは時間的一貫性を低下させることが多く,ビデオデコーダによるバックプロパゲーションのコストがかかる。
本稿では,時間的整合性を維持しながらバッチの多様性を向上させるフローマッチングビデオジェネレータのための共同サンプリングフレームワークを提案する。
当社のアプローチでは,多様性駆動型更新を適用して,時間的一貫性の目標を減少させるコンポーネントのみを除去する。
画像空間勾配を回避するために,ビデオデコードやデコーダのバックプロパゲーションを回避し,軽量な潜在空間モデルを用いて両目的を計算する。
最先端のテキスト・ビデオ・フローマッチングモデルの実験では、強い結合サンプリングベースラインに匹敵する多様性を示しながら、時間的一貫性と色自然性を大幅に改善した。
コードはリリースされる。
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Temporally stable video segmentation without video annotations [6.184270985214255]
静止画像分割モデルを教師なしの方法でビデオに適応させる手法を提案する。
整合性尺度がヒトの判断とよく相関していることを検証する。
生成したセグメンテーションビデオの精度の低下を最小限に抑えて改善を観察する。
論文 参考訳(メタデータ) (2021-10-17T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。