論文の概要: KeyNode-Driven Geometry Coding for Real-World Scanned Human Dynamic Mesh Compression
- arxiv url: http://arxiv.org/abs/2501.01717v1
- Date: Fri, 03 Jan 2025 09:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:10:47.303898
- Title: KeyNode-Driven Geometry Coding for Real-World Scanned Human Dynamic Mesh Compression
- Title(参考訳): 実世界走査型動的メッシュ圧縮のためのキーノード駆動幾何符号化
- Authors: Huong Hoang, Truong Nguyen, Pamela Cosman,
- Abstract要約: 実世界のスキャンされた3Dヒューマンメッシュの圧縮は、テレプレゼンス、バーチャルリアリティ、そして3Dデジタルストリーミングといったアプリケーションによって駆動される、新たな研究領域である。
本研究では,実世界の人間の動的メッシュをスキャンし,鍵ノードを組み込んだ圧縮手法を提案する。
提案手法は, 評価シーケンス全体で平均24.51%の節約率で, 最先端技術よりも大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 2.125376833189004
- License:
- Abstract: The compression of real-world scanned 3D human dynamic meshes is an emerging research area, driven by applications such as telepresence, virtual reality, and 3D digital streaming. Unlike synthesized dynamic meshes with fixed topology, scanned dynamic meshes often not only have varying topology across frames but also scan defects such as holes and outliers, increasing the complexity of prediction and compression. Additionally, human meshes often combine rigid and non-rigid motions, making accurate prediction and encoding significantly more difficult compared to objects that exhibit purely rigid motion. To address these challenges, we propose a compression method designed for real-world scanned human dynamic meshes, leveraging embedded key nodes. The temporal motion of each vertex is formulated as a distance-weighted combination of transformations from neighboring key nodes, requiring the transmission of solely the key nodes' transformations. To enhance the quality of the KeyNode-driven prediction, we introduce an octree-based residual coding scheme and a Dual-direction prediction mode, which uses I-frames from both directions. Extensive experiments demonstrate that our method achieves significant improvements over the state-of-the-art, with an average bitrate saving of 24.51% across the evaluated sequences, particularly excelling at low bitrates.
- Abstract(参考訳): 実世界のスキャンされた3Dヒューマンメッシュの圧縮は、テレプレゼンス、バーチャルリアリティ、そして3Dデジタルストリーミングといったアプリケーションによって駆動される、新たな研究領域である。
固定されたトポロジを持つ合成された動的メッシュとは異なり、走査された動的メッシュはフレーム間で異なるトポロジを持つだけでなく、穴や外れ値などの欠陥もスキャンし、予測と圧縮の複雑さを増大させる。
加えて、人間のメッシュはしばしば剛体と非剛体の動きを組み合わせ、正確な予測と符号化は純粋に剛体的な動きを示す物体よりもはるかに困難である。
これらの課題に対処するために,実世界の人間の動的メッシュをスキャンし,鍵ノードを組み込んだ圧縮手法を提案する。
各頂点の時間運動は、隣接するキーノードからの変換の距離重み付け結合として定式化され、キーノードの変換のみの伝達が要求される。
キーノード駆動予測の品質を高めるために,オクツリーベースの残差符号化方式と,両方向からのIフレームを用いたデュアル指向予測方式を導入する。
実験の結果,提案手法は,評価シーケンスの平均ビットレートは24.51%であり,特に低ビットレートでは優れていた。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Ultron: Enabling Temporal Geometry Compression of 3D Mesh Sequences using Temporal Correspondence and Mesh Deformation [2.0914328542137346]
既存の3Dモデル圧縮手法は主に静的モデルに焦点を当てており、フレーム間情報を考慮していない。
本稿では,時間的対応とメッシュ変形を用いた任意のトポロジでメッシュ列を圧縮する方法を提案する。
論文 参考訳(メタデータ) (2024-09-08T16:34:19Z) - Fast Point Cloud Geometry Compression with Context-based Residual Coding and INR-based Refinement [19.575833741231953]
我々は、KNN法を用いて、原表面点の近傍を決定する。
条件付き確率モデルは局所幾何学に適応し、大きな速度減少をもたらす。
暗黙のニューラル表現を精製層に組み込むことで、デコーダは任意の密度で下面の点をサンプリングすることができる。
論文 参考訳(メタデータ) (2024-08-06T05:24:06Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis [31.90503003079933]
我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
論文 参考訳(メタデータ) (2024-02-27T09:56:15Z) - Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for
Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。
さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。
このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文 参考訳(メタデータ) (2023-12-02T13:17:10Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Hamiltonian Dynamics for Real-World Shape Interpolation [66.47407593823208]
我々は3次元形状の古典的問題を再考し、ハミルトン力学に基づく新しい物理的に妥当なアプローチを提案する。
本手法は, 中間形状を正確に保存し, 自己切断を回避し, 高分解能スキャンにスケーラブルである。
論文 参考訳(メタデータ) (2020-04-10T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。