Fugu-MT 論文翻訳(概要): KeyNode-Driven Geometry Coding for Real-World Scanned Human Dynamic Mesh Compression

論文の概要: KeyNode-Driven Geometry Coding for Real-World Scanned Human Dynamic Mesh Compression

arxiv url: http://arxiv.org/abs/2501.01717v1
Date: Fri, 03 Jan 2025 09:22:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 16:38:31.565642
Title: KeyNode-Driven Geometry Coding for Real-World Scanned Human Dynamic Mesh Compression
Title（参考訳）: 実世界走査型動的メッシュ圧縮のためのキーノード駆動幾何符号化
Authors: Huong Hoang, Truong Nguyen, Pamela Cosman,
Abstract要約: 実世界のスキャンされた3Dヒューマンメッシュの圧縮は、テレプレゼンス、バーチャルリアリティ、そして3Dデジタルストリーミングといったアプリケーションによって駆動される、新たな研究領域である。本研究では,実世界の人間の動的メッシュをスキャンし,鍵ノードを組み込んだ圧縮手法を提案する。提案手法は, 評価シーケンス全体で平均24.51%の節約率で, 最先端技術よりも大幅な改善を実現している。
参考スコア（独自算出の注目度）: 2.125376833189004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The compression of real-world scanned 3D human dynamic meshes is an emerging research area, driven by applications such as telepresence, virtual reality, and 3D digital streaming. Unlike synthesized dynamic meshes with fixed topology, scanned dynamic meshes often not only have varying topology across frames but also scan defects such as holes and outliers, increasing the complexity of prediction and compression. Additionally, human meshes often combine rigid and non-rigid motions, making accurate prediction and encoding significantly more difficult compared to objects that exhibit purely rigid motion. To address these challenges, we propose a compression method designed for real-world scanned human dynamic meshes, leveraging embedded key nodes. The temporal motion of each vertex is formulated as a distance-weighted combination of transformations from neighboring key nodes, requiring the transmission of solely the key nodes' transformations. To enhance the quality of the KeyNode-driven prediction, we introduce an octree-based residual coding scheme and a Dual-direction prediction mode, which uses I-frames from both directions. Extensive experiments demonstrate that our method achieves significant improvements over the state-of-the-art, with an average bitrate saving of 24.51% across the evaluated sequences, particularly excelling at low bitrates.
Abstract（参考訳）: 実世界のスキャンされた3Dヒューマンメッシュの圧縮は、テレプレゼンス、バーチャルリアリティ、そして3Dデジタルストリーミングといったアプリケーションによって駆動される、新たな研究領域である。固定されたトポロジを持つ合成された動的メッシュとは異なり、走査された動的メッシュはフレーム間で異なるトポロジを持つだけでなく、穴や外れ値などの欠陥もスキャンし、予測と圧縮の複雑さを増大させる。加えて、人間のメッシュはしばしば剛体と非剛体の動きを組み合わせ、正確な予測と符号化は純粋に剛体的な動きを示す物体よりもはるかに困難である。これらの課題に対処するために,実世界の人間の動的メッシュをスキャンし,鍵ノードを組み込んだ圧縮手法を提案する。各頂点の時間運動は、隣接するキーノードからの変換の距離重み付け結合として定式化され、キーノードの変換のみの伝達が要求される。キーノード駆動予測の品質を高めるために,オクツリーベースの残差符号化方式と,両方向からのIフレームを用いたデュアル指向予測方式を導入する。実験の結果,提案手法は,評価シーケンスの平均ビットレートは24.51%であり,特に低ビットレートでは優れていた。

関連論文リスト

D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos [12.24209693552492]
自由視点ビデオ(FVV)は没入型3D体験を可能にするが、動的3D表現の効率的な圧縮は依然として大きな課題である。本稿では,時間的に相関したガウス点雲列を圧縮する新しいフィードフォワードフレームワークである動的ガウス散乱(D-FCGS)のフィードフォワード圧縮を提案する。実験の結果,最適化手法の速度歪み特性と一致し,40倍以上の圧縮を2秒以内で達成した。
論文参考訳（メタデータ） (2025-07-08T10:39:32Z)
Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは知的ロボットにとって協調的な環境において不可欠です本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-07-01T13:55:57Z)
Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文参考訳（メタデータ） (2025-05-08T15:28:09Z)
CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文参考訳（メタデータ） (2025-04-17T15:33:01Z)
A Joint Visual Compression and Perception Framework for Neuralmorphic Spiking Camera [42.74887012434441]
本稿では、スパイクシーケンスを圧縮し、ビットレートとタスク性能の両方に最適化するスパイク情報符号化(SCI)の概念を提案する。スパイクベース分類では,SOTAコーデックと比較して平均17.25%のBDレート削減,スパイクベース分類では4.3%の精度向上を実現している。
論文参考訳（メタデータ） (2025-03-04T15:44:33Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Ultron: Enabling Temporal Geometry Compression of 3D Mesh Sequences using Temporal Correspondence and Mesh Deformation [2.0914328542137346]
既存の3Dモデル圧縮手法は主に静的モデルに焦点を当てており、フレーム間情報を考慮していない。本稿では,時間的対応とメッシュ変形を用いた任意のトポロジでメッシュ列を圧縮する方法を提案する。
論文参考訳（メタデータ） (2024-09-08T16:34:19Z)
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文参考訳（メタデータ） (2024-05-24T11:12:37Z)
Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis [31.90503003079933]
我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
論文参考訳（メタデータ） (2024-02-27T09:56:15Z)
Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文参考訳（メタデータ） (2023-12-02T13:17:10Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文参考訳（メタデータ） (2023-06-30T11:49:00Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文参考訳（メタデータ） (2021-01-18T03:24:48Z)
Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文参考訳（メタデータ） (2020-11-19T08:15:10Z)
Hamiltonian Dynamics for Real-World Shape Interpolation [66.47407593823208]
我々は3次元形状の古典的問題を再考し、ハミルトン力学に基づく新しい物理的に妥当なアプローチを提案する。本手法は, 中間形状を正確に保存し, 自己切断を回避し, 高分解能スキャンにスケーラブルである。
論文参考訳（メタデータ） (2020-04-10T18:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。