論文の概要: T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates
- arxiv url: http://arxiv.org/abs/2507.07633v1
- Date: Thu, 10 Jul 2025 11:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.36606
- Title: T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates
- Title(参考訳): T-GVC:極低ビットレートでの軌道誘導型生成ビデオ符号化
- Authors: Zhitao Wang, Hengyu Man, Wenrui Li, Xingtao Wang, Xiaopeng Fan, Debin Zhao,
- Abstract要約: 軌道案内型生成ビデオ符号化フレームワーク(Dubed T-GVC)を提案する。
T-GVCはセマンティック・アウェアのスパース・モーション・サンプリング・パイプラインを使用し、低レベルなモーション・トラッキングを高レベルなセマンティック・理解でブリッジする。
我々のフレームワークは、従来のコーデックと、ULB条件下での最先端の動画圧縮の両方に優れる。
- 参考スコア(独自算出の注目度): 29.598249500198904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation techniques have given rise to an emerging paradigm of generative video coding, aiming to achieve semantically accurate reconstructions in Ultra-Low Bitrate (ULB) scenarios by leveraging strong generative priors. However, most existing methods are limited by domain specificity (e.g., facial or human videos) or an excessive dependence on high-level text guidance, which often fails to capture motion details and results in unrealistic reconstructions. To address these challenges, we propose a Trajectory-Guided Generative Video Coding framework (dubbed T-GVC). T-GVC employs a semantic-aware sparse motion sampling pipeline to effectively bridge low-level motion tracking with high-level semantic understanding by extracting pixel-wise motion as sparse trajectory points based on their semantic importance, not only significantly reducing the bitrate but also preserving critical temporal semantic information. In addition, by incorporating trajectory-aligned loss constraints into diffusion processes, we introduce a training-free latent space guidance mechanism to ensure physically plausible motion patterns without sacrificing the inherent capabilities of generative models. Experimental results demonstrate that our framework outperforms both traditional codecs and state-of-the-art end-to-end video compression methods under ULB conditions. Furthermore, additional experiments confirm that our approach achieves more precise motion control than existing text-guided methods, paving the way for a novel direction of generative video coding guided by geometric motion modeling.
- Abstract(参考訳): 近年の映像生成技術の進歩は, 強力な生成先行を生かして, ウルトラロービットレート(ULB)シナリオにおける意味的精度の高い再構築を実現することを目的として, 生成ビデオ符号化のパラダイムを新たに発展させてきた。
しかし、既存のほとんどの手法は、ドメインの特異性(例えば、顔や人間のビデオ)や高レベルのテキストガイダンスへの過度な依存によって制限されている。
これらの課題に対処するため,T-GVC (Trjectory-Guided Generative Video Coding framework) を提案する。
T-GVCは、セマンティック・アウェアなスパース・モーション・サンプリング・パイプラインを用いて、ビットレートを著しく低減するだけでなく、重要な時間的意味情報を保持するだけでなく、その意味的重要性に基づいて、ピクセルワイズ・モーションをスパース・トラジェクトリ・ポイントとして抽出することで、高レベルのセマンティック・理解による低レベルのモーション・トラッキングを効果的にブリッジする。
さらに, トラジェクティブ・アライン・ロス制約を拡散過程に組み込むことにより, 生成モデル固有の能力を犠牲にすることなく, 物理的に可塑性な運動パターンを確保するためのトレーニング不要な潜在空間誘導機構を導入する。
実験により,URB条件下での従来のコーデックと最先端のエンドツーエンドビデオ圧縮法の両方より優れた性能を示した。
さらに,本手法が既存のテキスト誘導方式よりも高精度な動作制御を実現することを確認し,幾何学的動きモデリングによって導かれる生成ビデオ符号化の新たな方向に向けた道を開いた。
関連論文リスト
- STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [24.86836673853292]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。