論文の概要: Sparse2Dense: A Keypoint-driven Generative Framework for Human Video Compression and Vertex Prediction
- arxiv url: http://arxiv.org/abs/2509.23169v1
- Date: Sat, 27 Sep 2025 07:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.081755
- Title: Sparse2Dense: A Keypoint-driven Generative Framework for Human Video Compression and Vertex Prediction
- Title(参考訳): Sparse2Dense:人間のビデオ圧縮と頂点予測のためのキーポイント駆動生成フレームワーク
- Authors: Bolin Chen, Ru-Ling Liao, Yan Ye, Jie Chen, Shanzhi Yin, Xinrui Ju, Shiqi Wang, Yibo Fan,
- Abstract要約: 超低速映像圧縮のためのキーポイント駆動生成フレームワークであるSparse2Denseを提案する。
鍵となるイノベーションは、複雑な人間の動きをエンコードするマルチタスク学習とキーポイント認識の深層生成モデルである。
Sparse2Denseは、リアルタイムモーション分析、仮想人間アニメーション、没入型エンターテイメントなど、帯域幅効率の高い人中心メディアの伝送を容易にすることが期待されている。
- 参考スコア(独自算出の注目度): 27.93468658887177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For bandwidth-constrained multimedia applications, simultaneously achieving ultra-low bitrate human video compression and accurate vertex prediction remains a critical challenge, as it demands the harmonization of dynamic motion modeling, detailed appearance synthesis, and geometric consistency. To address this challenge, we propose Sparse2Dense, a keypoint-driven generative framework that leverages extremely sparse 3D keypoints as compact transmitted symbols to enable ultra-low bitrate human video compression and precise human vertex prediction. The key innovation is the multi-task learning-based and keypoint-aware deep generative model, which could encode complex human motion via compact 3D keypoints and leverage these sparse keypoints to estimate dense motion for video synthesis with temporal coherence and realistic textures. Additionally, a vertex predictor is integrated to learn human vertex geometry through joint optimization with video generation, ensuring alignment between visual content and geometric structure. Extensive experiments demonstrate that the proposed Sparse2Dense framework achieves competitive compression performance for human video over traditional/generative video codecs, whilst enabling precise human vertex prediction for downstream geometry applications. As such, Sparse2Dense is expected to facilitate bandwidth-efficient human-centric media transmission, such as real-time motion analysis, virtual human animation, and immersive entertainment.
- Abstract(参考訳): 超低ビットレートの人間のビデオ圧縮と正確な頂点予測を同時に達成するには、動的モーションモデリング、詳細な外観合成、幾何整合性の調和を必要とするため、帯域制限のあるマルチメディアアプリケーションでは、依然として重要な課題である。
この課題に対処するために,超低ビットレート映像圧縮と高精度な人間の頂点予測を実現するために,非常にスパースな3Dキーポイントをコンパクトなシンボルとして活用するキーポイント駆動生成フレームワークであるSparse2Denseを提案する。
これは、コンパクトな3Dキーポイントを通じて複雑な人間の動きを符号化し、これらのスパースキーポイントを活用して、時間的コヒーレンスと現実的なテクスチャを備えたビデオ合成のための密度の高い動きを推定する。
さらに,映像生成との協調最適化によって人間の頂点形状を学習し,視覚的内容と幾何学的構造との整合性を確保するために頂点予測器を統合した。
大規模な実験により,提案したSparse2Denseフレームワークは,従来のビデオコーデックよりも優れた圧縮性能を実現するとともに,下流の幾何学的応用のための正確な人間頂点予測を可能にした。
このように、Sparse2Denseは、リアルタイムモーション分析、仮想人間アニメーション、没入型エンターテイメントなど、帯域効率の高い人中心メディアの伝送を容易にすることが期待されている。
関連論文リスト
- HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics [60.737929335600015]
4つの協調エージェントを通して幾何学的および生成的モデリングを統合するフレームワークである textbfHumanGenesis を提示する。
HumanGenesisは、テキスト誘導合成、ビデオ再現、新規目的一般化といったタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-13T14:50:19Z) - D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos [12.24209693552492]
自由視点ビデオ(FVV)は没入型3D体験を可能にするが、動的3D表現の効率的な圧縮は依然として大きな課題である。
本稿では,時間的に相関したガウス点雲列を圧縮する新しいフィードフォワードフレームワークである動的ガウス散乱(D-FCGS)のフィードフォワード圧縮を提案する。
実験の結果,最適化手法の速度歪み特性と一致し,40倍以上の圧縮を2秒以内で達成した。
論文 参考訳(メタデータ) (2025-07-08T10:39:32Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Compressing Human Body Video with Interactive Semantics: A Generative Approach [30.403440387272575]
対話型セマンティクスを用いて人体映像を圧縮することを提案する。
提案するエンコーダは3次元人体モデルを用いて非線形力学と人体信号の複雑な動きを解離する。
提案するデコーダは、メッシュベースの運動場を進化させ、高品質な人体ビデオ再構成を実現する。
論文 参考訳(メタデータ) (2025-05-22T02:51:58Z) - KeyNode-Driven Geometry Coding for Real-World Scanned Human Dynamic Mesh Compression [2.125376833189004]
実世界のスキャンされた3Dヒューマンメッシュの圧縮は、テレプレゼンス、バーチャルリアリティ、そして3Dデジタルストリーミングといったアプリケーションによって駆動される、新たな研究領域である。
本研究では,実世界の人間の動的メッシュをスキャンし,鍵ノードを組み込んだ圧縮手法を提案する。
提案手法は, 評価シーケンス全体で平均58.43%の節約率で, 最先端技術よりも大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-01-03T09:22:16Z) - DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos [44.50599475213118]
我々は、複雑な人間のパフォーマンスをリアルタイムかつ高忠実に再生するための、textitDualGSと呼ばれる新しいアプローチを提案する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
我々は、VRヘッドセット上で写真リアルで自由視点体験を通して、表現の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-12T18:33:13Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。