論文の概要: Tokenizing Motion: A Generative Approach for Scene Dynamics Compression
- arxiv url: http://arxiv.org/abs/2410.09768v2
- Date: Sun, 12 Oct 2025 07:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.792653
- Title: Tokenizing Motion: A Generative Approach for Scene Dynamics Compression
- Title(参考訳): Tokenizing Motion: シーンダイナミクス圧縮のための生成的アプローチ
- Authors: Shanzhi Yin, Zihan Zhang, Bolin Chen, Shiqi Wang, Yan Ye,
- Abstract要約: 本稿では,動きパターンの先行性を利用した新しい映像圧縮フレームワークを提案する。
これらのコンパクトな動きは、ウルトラローコンテンツ通信に対する新しいアプローチを可能にする。
提案手法は,従来のシーン映像強調圧縮モデルよりも高速かつ高性能なレート歪み性能を実現することができる。
- 参考スコア(独自算出の注目度): 27.897703419056253
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a novel generative video compression framework that leverages motion pattern priors, derived from subtle dynamics in common scenes (e.g., swaying flowers or a boat drifting on water), rather than relying on video content priors (e.g., talking faces or human bodies). These compact motion priors enable a new approach to ultra-low bitrate communication while achieving high-quality reconstruction across diverse scene contents. At the encoder side, motion priors can be streamlined into compact representations via a dense-to-sparse transformation. At the decoder side, these priors facilitate the reconstruction of scene dynamics using an advanced flow-driven diffusion model. Experimental results illustrate that the proposed method can achieve superior rate-distortion-performance and outperform the state-of-the-art conventional-video codec Enhanced Compression Model (ECM) on-scene dynamics sequences. The project page can be found at-https://github.com/xyzysz/GNVDC.
- Abstract(参考訳): 本稿では, 映像コンテンツに頼らず, 一般的な場面における微妙なダイナミックス(花や水上を漂うボートなど)から派生した, 動きパターンの先行を生かした新たな映像圧縮フレームワークを提案する。
これらのコンパクトな動きの先行は、様々なシーンコンテンツにまたがる高品質な再構成を実現しつつ、超低ビットレート通信への新たなアプローチを可能にする。
エンコーダ側では、動き先行を密度とスパース変換によってコンパクトな表現に合理化することができる。
デコーダ側では、これらの先行は高度なフロー駆動拡散モデルを用いてシーンダイナミクスの再構築を促進する。
実験結果から,提案手法は,従来のビデオコーデック拡張圧縮モデル(ECM)のオンシーン動的シーケンスよりも優れた速度歪み性能を実現することができることがわかった。
プロジェクトページは-https://github.com/xyzysz/GNVDCで見ることができる。
関連論文リスト
- Rethinking Generative Human Video Coding with Implicit Motion Transformation [9.85295369102017]
生成ビデオは、高次元信号をコンパクトな特徴表現に進化させることで、有望な圧縮性能を実現することができる。
人間のボディビデオは、より複雑で多様な動きパターンのために、より大きな課題を引き起こす。
本稿では、複雑な人体信号をコンパクトな視覚特徴に特徴付け、これらの特徴を信号再構成のための暗黙の動作誘導に変換することを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:58:18Z) - Hi-VAE: Efficient Video Autoencoding with Global and Detailed Motion [23.80254637449824]
Hi-VAEは、ビデオダイナミクスの粗大な動き表現を符号化する効率的なビデオ自動符号化フレームワークを定式化している。
我々は,Hi-VAEの圧縮係数が1428$times$,30$times$がベースライン法よりも高いことを示す。
論文 参考訳(メタデータ) (2025-06-08T13:30:11Z) - Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - VDG: Vision-Only Dynamic Gaussian for Driving Simulation [112.6139608504842]
ポーズフリーな動的ガウス法(VDG)に自己教師付きVOを導入する。
VDGはRGB画像入力のみで動作可能で、ポーズフリーのダイナミックビュー合成法に比べて高速で広いシーンで動的シーンを構築することができる。
その結果,現状の動的ビュー合成法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-26T09:29:21Z) - MoDGS: Dynamic Gaussian Splatting from Casually-captured Monocular Videos with Depth Priors [65.31707882676292]
MoDGSは、カジュアルにキャプチャーされたモノクロビデオから、ダイナミックなシーンの新たなビューを描画する新しいパイプラインだ。
実験では、MoDGSはカジュアルにキャプチャされたモノクロビデオから、ダイナミックシーンの高品質なノベルビュー画像をレンダリングできることを示した。
論文 参考訳(メタデータ) (2024-06-01T13:20:46Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - MotionVideoGAN: A Novel Video Generator Based on the Motion Space
Learned from Image Pairs [16.964371778504297]
我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。
モーションコードは、編集された画像が同じ内容を共有するため、モーション空間内の画像を編集するのに役立ちます。
提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-06T05:52:13Z) - Dilated convolutional neural network-based deep reference picture
generation for video compression [16.42377608366894]
本稿では,現在の符号化フレームとより関連性の高い画像を生成するディープリファレンス画像生成器を提案する。
本稿では,近年の畳み込みニューラルネットワーク(CNN)の進歩に触発されて,拡張CNNを用いてジェネレータを構築することを提案する。
論文 参考訳(メタデータ) (2022-02-11T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。