論文の概要: Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V
- arxiv url: http://arxiv.org/abs/2601.20504v1
- Date: Wed, 28 Jan 2026 11:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.910092
- Title: Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V
- Title(参考訳): 動作先行としての潜在時間差:T2Vの動的忠実度に対する損失重み付け戦略
- Authors: Meiqi Wu, Bingze Song, Ruimin Lin, Chen Zhu, Xiaokun Feng, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang,
- Abstract要約: 本稿では,損失重み付け前の動きとしてLTD(Latent Temporal Disrepancy)を導入する。
LTDは潜在空間におけるフレーム・ツー・フレームの変動を測定し、安定した領域の定期的な最適化を維持しながら、高い差のある領域により大きなペナルティを割り当てる。
VBenchは3.31%,VMBenchは3.58%,強いベースラインは3.31%向上した。
- 参考スコア(独自算出の注目度): 36.37746089367601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models have achieved notable progress in static scenarios, yet their performance in motion video generation remains limited, with quality degrading under drastic dynamic changes. This is due to noise disrupting temporal coherence and increasing the difficulty of learning dynamic regions. {Unfortunately, existing diffusion models rely on static loss for all scenarios, constraining their ability to capture complex dynamics.} To address this issue, we introduce Latent Temporal Discrepancy (LTD) as a motion prior to guide loss weighting. LTD measures frame-to-frame variation in the latent space, assigning larger penalties to regions with higher discrepancy while maintaining regular optimization for stable regions. This motion-aware strategy stabilizes training and enables the model to better reconstruct high-frequency dynamics. Extensive experiments on the general benchmark VBench and the motion-focused VMBench show consistent gains, with our method outperforming strong baselines by 3.31% on VBench and 3.58% on VMBench, achieving significant improvements in motion quality.
- Abstract(参考訳): 動画生成モデルは静的なシナリオにおいて顕著な進歩を遂げているが、動画生成のパフォーマンスは依然として限られており、劇的なダイナミックな変化の下で品質が劣化している。
これは、時間的コヒーレンスを妨害するノイズと、動的領域の学習の困難さが原因である。
残念ながら、既存の拡散モデルはすべてのシナリオで静的な損失に依存しており、複雑なダイナミクスをキャプチャする能力を制限している。
この問題に対処するため,ガイド損失重み付け前の動きとしてLTD(Latent Temporal Discrepancy)を導入する。
LTDは潜在空間におけるフレーム・ツー・フレームの変動を測定し、安定した領域の定期的な最適化を維持しながら、高い差のある領域により大きなペナルティを割り当てる。
この動き認識戦略は訓練を安定させ、高周波数ダイナミックスをより良く再構築することを可能にする。
VBenchは3.31%,VMBenchは3.58%,動作品質は3.31%向上した。
関連論文リスト
- 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - From Tokens to Nodes: Semantic-Guided Motion Control for Dynamic 3D Gaussian Splatting [26.57713792657793]
制御密度と動きの複雑さを一致させる動き適応フレームワークを提案する。
既存の最先端手法に比べて,復元品質と効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-10-03T05:33:58Z) - PMR: Physical Model-Driven Multi-Stage Restoration of Turbulent Dynamic Videos [9.48544376032391]
本研究では, 乱流強度, 光学的流れ, ダイナミック領域の割合を組み合わせた動的効率指数(DEI$)を導入し, 変動する乱流条件下での映像動的強度を正確に定量化する。
また,幾何安定化のためのtextbfde-tilting,テキストbfmotionセグメンテーションの強化,品質回復のための textbfde-blurring の3段階からなる物理モデル駆動型多段階ビデオ再生(PMR$)フレームワークを提案する。
PMR$は軽量のバックボーンとステージワイドのジョイントトレーニングを採用して、効率性と高い修復性を確保している。
論文 参考訳(メタデータ) (2025-08-01T08:06:41Z) - HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene [24.789092424634536]
本稿では,スパースアンカー駆動変形による構造的・一貫した動的モデリングを実現する統合フレームワークHAIF-GSを提案する。
HAIF-GSは, レンダリング品質, 時間的コヒーレンス, 再構成効率において, 従来の動的3DGS法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-11T08:45:08Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering [49.36767999382054]
周期振動ガウスモデル(PVG)を提案する。
PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。
PVGは、最良の代替品よりも900倍の速度でレンダリングできる。
論文 参考訳(メタデータ) (2023-11-30T13:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。