論文の概要: DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization
- arxiv url: http://arxiv.org/abs/2507.13934v1
- Date: Fri, 18 Jul 2025 14:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.307577
- Title: DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization
- Title(参考訳): DiViD:静的動的因子化のための遠方拡散ビデオ
- Authors: Marzieh Gheisari, Auguste Genovesio,
- Abstract要約: 静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
- 参考スコア(独自算出の注目度): 2.7194314957925094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised disentanglement of static appearance and dynamic motion in video remains a fundamental challenge, often hindered by information leakage and blurry reconstructions in existing VAE- and GAN-based approaches. We introduce DiViD, the first end-to-end video diffusion framework for explicit static-dynamic factorization. DiViD's sequence encoder extracts a global static token from the first frame and per-frame dynamic tokens, explicitly removing static content from the motion code. Its conditional DDPM decoder incorporates three key inductive biases: a shared-noise schedule for temporal consistency, a time-varying KL-based bottleneck that tightens at early timesteps (compressing static information) and relaxes later (enriching dynamics), and cross-attention that routes the global static token to all frames while keeping dynamic tokens frame-specific. An orthogonality regularizer further prevents residual static-dynamic leakage. We evaluate DiViD on real-world benchmarks using swap-based accuracy and cross-leakage metrics. DiViD outperforms state-of-the-art sequential disentanglement methods: it achieves the highest swap-based joint accuracy, preserves static fidelity while improving dynamic transfer, and reduces average cross-leakage.
- Abstract(参考訳): ビデオにおける静的な外見とダイナミックな動きの教師なしの歪みは、情報漏洩や既存のVAEおよびGANベースのアプローチのぼやけた再構築によってしばしば妨げられる、根本的な課題である。
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDのシーケンスエンコーダは、第1フレームとフレーム単位の動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
その条件付きDDPMデコーダには、時間的一貫性のための共有ノイズスケジュール、早い段階で締め付け(静的情報を圧縮する)、後で緩和する時間変化KLベースのボトルネック、グローバルな静的トークンを動的トークン固有のフレームを維持しながらすべてのフレームにルーティングするクロスアテンションという3つの重要な帰納バイアスが含まれている。
直交正則化器は、残留した静力学漏れをさらに防止する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
DiViDは高いスワップベース継手精度を達成し、動的転送を改善しながら静的な忠実さを維持し、平均的なクロスリージを減少させる。
関連論文リスト
- HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene [11.906835503107189]
本稿では,スパースアンカー駆動変形による構造的・一貫した動的モデリングを実現する統合フレームワークHAIF-GSを提案する。
HAIF-GSは, レンダリング品質, 時間的コヒーレンス, 再構成効率において, 従来の動的3DGS法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-11T08:45:08Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [51.003833566279006]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation [14.635179908525389]
ビデオ単眼深度推定は、自律運転、AR/VR、ロボット工学などのアプリケーションに不可欠である。
近年の変圧器を用いた単眼単眼深度推定モデルは単一画像上では良好に機能するが,ビデオフレーム間の奥行きの整合性に苦慮している。
本研究では,静的および動的領域における時間的一貫性を付加情報なしで学習する新しいモデルであるSTATICを提案する。
論文 参考訳(メタデータ) (2024-12-02T03:53:33Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - DualAD: Disentangling the Dynamic and Static World for End-to-End Driving [11.379456277711379]
自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。
動的エージェントと静的シーン要素を分離する専用表現を提案する。
DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-06-10T13:46:07Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case
Study Using Music Audio [17.214062755082065]
Disentangled Sequence Autoencoder (DSAE) は確率的グラフィカルモデルのクラスを表す。
バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であることを示す。
本稿では,まずシーケンスレベルの事前分布を学習する2段階のトレーニングフレームワークTS-DSAEを提案する。
論文 参考訳(メタデータ) (2022-05-12T04:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。