論文の概要: T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates
- arxiv url: http://arxiv.org/abs/2507.07633v3
- Date: Tue, 05 Aug 2025 12:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.560002
- Title: T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates
- Title(参考訳): T-GVC:極低ビットレートでの軌道誘導型生成ビデオ符号化
- Authors: Zhitao Wang, Hengyu Man, Wenrui Li, Xingtao Wang, Xiaopeng Fan, Debin Zhao,
- Abstract要約: Trajectory-Guided Generative Video Coding (dubed TGVC)は、低レベルなモーショントラッキングと高レベルなセマンティック理解を橋渡しする。
本フレームワークは,既存のテキスト誘導方式よりも高精度な動作制御を実現する。
- 参考スコア(独自算出の注目度): 29.598249500198904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation techniques have given rise to an emerging paradigm of generative video coding for Ultra-Low Bitrate (ULB) scenarios by leveraging powerful generative priors. However, most existing methods are limited by domain specificity (e.g., facial or human videos) or excessive dependence on high-level text guidance, which tend to inadequately capture fine-grained motion details, leading to unrealistic or incoherent reconstructions. To address these challenges, we propose Trajectory-Guided Generative Video Coding (dubbed T-GVC), a novel framework that bridges low-level motion tracking with high-level semantic understanding. T-GVC features a semantic-aware sparse motion sampling pipeline that extracts pixel-wise motion as sparse trajectory points based on their semantic importance, significantly reducing the bitrate while preserving critical temporal semantic information. In addition, by integrating trajectory-aligned loss constraints into diffusion processes, we introduce a training-free guidance mechanism in latent space to ensure physically plausible motion patterns without sacrificing the inherent capabilities of generative models. Experimental results demonstrate that T-GVC outperforms both traditional and neural video codecs under ULB conditions. Furthermore, additional experiments confirm that our framework achieves more precise motion control than existing text-guided methods, paving the way for a novel direction of generative video coding guided by geometric motion modeling.
- Abstract(参考訳): 近年の映像生成技術の発展により、強力な生成先行技術を活用することにより、Ultra-Low Bitrate (ULB) シナリオのための生成ビデオ符号化のパラダイムが生まれつつある。
しかし、既存のほとんどの手法は、ドメイン特異性(例えば、顔や人間のビデオ)や高レベルのテキストガイダンスへの過度な依存によって制限されている。
これらの課題に対処するために、低レベルなモーショントラッキングを高レベルなセマンティック理解でブリッジする新しいフレームワークであるT-GVC(Trjectory-Guided Generative Video Coding)を提案する。
T-GVCはセマンティック・アウェアなスパース・モーション・サンプリング・パイプラインを備えており、セマンティック・重要度に基づいて画素ワイド・モーションをスパース・トラジェクトリ・ポイントとして抽出し、重要な時間的意味情報を保持しながらビットレートを著しく低減する。
さらに, 軌道方向の損失制約を拡散過程に統合することにより, 生成モデル固有の能力を犠牲にすることなく, 物理的に可塑性な運動パターンを確保するための訓練自由誘導機構を潜伏空間に導入する。
実験の結果,T-GVCはULB条件下での従来のビデオコーデックとニューラルビデオコーデックより優れていた。
さらに,本フレームワークは既存のテキスト誘導方式よりも高精度な動き制御を実現し,幾何学的動きモデリングによって誘導される生成ビデオ符号化の新たな方向に向かう道を開くことを確認する。
関連論文リスト
- STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [24.86836673853292]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - Absolute Coordinates Make Motion Generation Easy [8.153961351540834]
最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文 参考訳(メタデータ) (2025-05-26T00:36:00Z) - Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。