論文の概要: From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition
- arxiv url: http://arxiv.org/abs/2509.19690v1
- Date: Wed, 24 Sep 2025 01:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.659757
- Title: From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition
- Title(参考訳): プロンプトからプログレクションへ:Seamless Attribute transitionのためのビデオ拡散モデルのモデリング
- Authors: Ling Lo, Kelvin C. K. Chan, Wen-Huang Cheng, Ming-Hsuan Yang,
- Abstract要約: 本研究では,スムーズかつ一貫した属性遷移に対する既存モデルの拡張をシンプルかつ効果的に行う手法を提案する。
提案手法は,初期属性フレームから最終属性フレームへの段階的なシフトをフレーム単位に導くことで,各雑音の遅延に対してデータ固有の遷移方向を構築する。
また、属性と動きのダイナミクスを統合した制御属性遷移ベンチマーク(CAT-Bench)を提案する。
- 参考スコア(独自算出の注目度): 57.809291244375345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing models often struggle with complex temporal changes, particularly when generating videos with gradual attribute transitions. The most common prompt interpolation approach for motion transitions often fails to handle gradual attribute transitions, where inconsistencies tend to become more pronounced. In this work, we propose a simple yet effective method to extend existing models for smooth and consistent attribute transitions, through introducing frame-wise guidance during the denoising process. Our approach constructs a data-specific transitional direction for each noisy latent, guiding the gradual shift from initial to final attributes frame by frame while preserving the motion dynamics of the video. Moreover, we present the Controlled-Attribute-Transition Benchmark (CAT-Bench), which integrates both attribute and motion dynamics, to comprehensively evaluate the performance of different models. We further propose two metrics to assess the accuracy and smoothness of attribute transitions. Experimental results demonstrate that our approach performs favorably against existing baselines, achieving visual fidelity, maintaining alignment with text prompts, and delivering seamless attribute transitions. Code and CATBench are released: https://github.com/lynn-ling-lo/Prompt2Progression.
- Abstract(参考訳): 既存のモデルは、特に段階的な属性遷移を伴うビデオを生成する場合、複雑な時間的変化に苦しむことが多い。
運動遷移に対する最も一般的な即時補間アプローチは、不整合がより顕著になる傾向にある段階的な属性遷移を扱うのに失敗することが多い。
本研究では,スムーズかつ一貫した属性遷移に対する既存モデルの拡張を,デノナイジングプロセス中にフレームワイドガイダンスを導入することで,シンプルかつ効果的に行う方法を提案する。
提案手法は,映像の動作動態を保ちながら,初期属性フレームから最終属性フレームへの段階的なシフトをフレーム単位で導くことで,各ノイズの遅延に対してデータ固有の遷移方向を構築する。
さらに、属性と動きのダイナミクスを統合した制御属性遷移ベンチマーク(CAT-Bench)を提案し、異なるモデルの性能を包括的に評価する。
さらに,属性遷移の精度と滑らかさを評価するための2つの指標を提案する。
実験の結果,提案手法は既存のベースラインに対して良好に動作し,視覚的忠実性を実現し,テキストプロンプトとの整合性を維持し,シームレスな属性遷移を実現する。
Code と CATBench は https://github.com/lynn-ling-lo/Prompt2Progression としてリリースされた。
関連論文リスト
- Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-03T10:03:56Z) - MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning [66.53533434848369]
密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
論文 参考訳(メタデータ) (2025-06-10T11:20:32Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Real-time Controllable Motion Transition for Characters [14.88407656218885]
リアルタイムの動作生成はゲームでは普遍的に必要であり、既存のアニメーションパイプラインでは非常に望ましい。
我々のアプローチは、運動多様体と条件遷移という2つの重要な構成要素から構成される。
提案手法は,複数の測定基準の下で測定された高品質な動きを生成できることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:02:54Z) - Robust Motion In-betweening [17.473287573543065]
本稿では,3次元アニメーターのための新しいツールとして機能する,新しい頑健な遷移生成技術を提案する。
このシステムは、時間的にスパーサをアニメーションの制約として使用する高品質な動作を合成する。
私たちは、トレーニングされたモデルを使用して運用シナリオで相互運用を行う、カスタムのMotionBuilderプラグインを紹介します。
論文 参考訳(メタデータ) (2021-02-09T16:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。