論文の概要: Compressing Human Body Video with Interactive Semantics: A Generative Approach
- arxiv url: http://arxiv.org/abs/2505.16152v1
- Date: Thu, 22 May 2025 02:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.993373
- Title: Compressing Human Body Video with Interactive Semantics: A Generative Approach
- Title(参考訳): 対話型セマンティックスによる人体映像の圧縮 : 生成的アプローチ
- Authors: Bolin Chen, Shanzhi Yin, Hanwei Zhu, Lingyu Zhu, Zihan Zhang, Jie Chen, Ru-Ling Liao, Shiqi Wang, Yan Ye,
- Abstract要約: 対話型セマンティクスを用いて人体映像を圧縮することを提案する。
提案するエンコーダは3次元人体モデルを用いて非線形力学と人体信号の複雑な動きを解離する。
提案するデコーダは、メッシュベースの運動場を進化させ、高品質な人体ビデオ再構成を実現する。
- 参考スコア(独自算出の注目度): 30.403440387272575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose to compress human body video with interactive semantics, which can facilitate video coding to be interactive and controllable by manipulating semantic-level representations embedded in the coded bitstream. In particular, the proposed encoder employs a 3D human model to disentangle nonlinear dynamics and complex motion of human body signal into a series of configurable embeddings, which are controllably edited, compactly compressed, and efficiently transmitted. Moreover, the proposed decoder can evolve the mesh-based motion fields from these decoded semantics to realize the high-quality human body video reconstruction. Experimental results illustrate that the proposed framework can achieve promising compression performance for human body videos at ultra-low bitrate ranges compared with the state-of-the-art video coding standard Versatile Video Coding (VVC) and the latest generative compression schemes. Furthermore, the proposed framework enables interactive human body video coding without any additional pre-/post-manipulation processes, which is expected to shed light on metaverse-related digital human communication in the future.
- Abstract(参考訳): 本稿では,対話型セマンティクスによる人体映像の圧縮を提案する。これにより,符号化されたビットストリームに埋め込まれたセマンティクスレベルの表現を操作することで,映像の対話的・制御が容易になる。
特に, 提案するエンコーダは, 非線形力学と人体信号の複雑な動きを, 制御的に編集し, コンパクトに圧縮し, 効率よく伝達する一連の構成可能な埋め込みに分解するために, 3次元の人体モデルを用いている。
さらに、提案するデコーダは、これらのデコードされたセマンティクスからメッシュベースの運動場を進化させ、高品質な人体ビデオ再構成を実現する。
実験結果から,提案フレームワークは,最先端ビデオ符号化規格であるVersatile Video Coding (VVC) や最新の生成圧縮方式と比較して,超低ビットレート範囲での人体ビデオの有望な圧縮性能を実現することができることが示された。
さらに,提案フレームワークは,今後,メタバース関連デジタルヒューマンコミュニケーションに光を当てることが期待できる,追加の事前/後操作プロセスを使わずに,インタラクティブな人体ビデオ符号化を可能にする。
関連論文リスト
- REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。