論文の概要: Rethinking Generative Human Video Coding with Implicit Motion Transformation
- arxiv url: http://arxiv.org/abs/2506.10453v1
- Date: Thu, 12 Jun 2025 07:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.639127
- Title: Rethinking Generative Human Video Coding with Implicit Motion Transformation
- Title(参考訳): インシシット・モーション・トランスフォーメーションによる生成的映像符号化の再考
- Authors: Bolin Chen, Ru-Ling Liao, Jie Chen, Yan Ye,
- Abstract要約: 生成ビデオは、高次元信号をコンパクトな特徴表現に進化させることで、有望な圧縮性能を実現することができる。
人間のボディビデオは、より複雑で多様な動きパターンのために、より大きな課題を引き起こす。
本稿では、複雑な人体信号をコンパクトな視覚特徴に特徴付け、これらの特徴を信号再構成のための暗黙の動作誘導に変換することを提案する。
- 参考スコア(独自算出の注目度): 9.85295369102017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beyond traditional hybrid-based video codec, generative video codec could achieve promising compression performance by evolving high-dimensional signals into compact feature representations for bitstream compactness at the encoder side and developing explicit motion fields as intermediate supervision for high-quality reconstruction at the decoder side. This paradigm has achieved significant success in face video compression. However, compared to facial videos, human body videos pose greater challenges due to their more complex and diverse motion patterns, i.e., when using explicit motion guidance for Generative Human Video Coding (GHVC), the reconstruction results could suffer severe distortions and inaccurate motion. As such, this paper highlights the limitations of explicit motion-based approaches for human body video compression and investigates the GHVC performance improvement with the aid of Implicit Motion Transformation, namely IMT. In particular, we propose to characterize complex human body signal into compact visual features and transform these features into implicit motion guidance for signal reconstruction. Experimental results demonstrate the effectiveness of the proposed IMT paradigm, which can facilitate GHVC to achieve high-efficiency compression and high-fidelity synthesis.
- Abstract(参考訳): 従来のハイブリッドビデオコーデック以外にも、生成ビデオコーデックは、高次元信号をエンコーダ側でビットストリームコンパクト性のためのコンパクトな特徴表現に発展させ、デコーダ側で高品質な再構成を行うための中間監督として明示的な運動場を開発することで、有望な圧縮性能を実現することができる。
このパラダイムは、顔ビデオ圧縮において大きな成功を収めた。
しかし、顔ビデオと比較すると、人体ビデオはより複雑で多様な動きパターン、すなわち、GHVC(Generative Human Video Coding)の明示的な動き誘導を使用する場合、再構成の結果は厳しい歪みと不正確な動きに悩まされる可能性がある。
そこで本研究では,人体ビデオ圧縮における明示的な動きに基づくアプローチの限界を強調し,インプリシット・モーション・トランスフォーメーション(IMT)を用いたGHVCの性能改善について検討する。
特に、複雑な人体信号をコンパクトな視覚的特徴に特徴付け、これらの特徴を信号再構成のための暗黙の動作誘導に変換することを提案する。
実験により,GHVCの高効率圧縮と高忠実度合成を実現するためのIMTパラダイムの有効性が示された。
関連論文リスト
- Compressing Human Body Video with Interactive Semantics: A Generative Approach [30.403440387272575]
対話型セマンティクスを用いて人体映像を圧縮することを提案する。
提案するエンコーダは3次元人体モデルを用いて非線形力学と人体信号の複雑な動きを解離する。
提案するデコーダは、メッシュベースの運動場を進化させ、高品質な人体ビデオ再構成を実現する。
論文 参考訳(メタデータ) (2025-05-22T02:51:58Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens [28.03183316628635]
本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
論文 参考訳(メタデータ) (2024-10-11T03:24:21Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。