論文の概要: Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression
- arxiv url: http://arxiv.org/abs/2509.14591v2
- Date: Sun, 02 Nov 2025 05:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.24314
- Title: Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression
- Title(参考訳): 効率的なダイナミックポイントクラウド圧縮のための双方向特徴整列運動変換
- Authors: Xuan Deng, Xingtao Wang, Xiandong Meng, Longguang Wang, Tiange Zhang, Xiaopeng Fan, Debin Zhao,
- Abstract要約: 特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
- 参考スコア(独自算出の注目度): 97.66080040613726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient dynamic point cloud compression (DPCC) critically depends on accurate motion estimation and compensation. However, the inherently irregular structure and substantial local variations of point clouds make this task highly challenging. Existing approaches typically rely on explicit motion estimation, whose encoded motion vectors often fail to capture complex dynamics and inadequately exploit temporal correlations. To address these limitations, we propose a Bidirectional Feature-aligned Motion Transformation (Bi-FMT) framework that implicitly models motion in the feature space. Bi-FMT aligns features across both past and future frames to produce temporally consistent latent representations, which serve as predictive context in a conditional coding pipeline, forming a unified ``Motion + Conditional'' representation. Built upon this bidirectional feature alignment, we introduce a Cross-Transformer Refinement module (CTR) at the decoder side to adaptively refine locally aligned features. By modeling cross-frame dependencies with vector attention, CRT enhances local consistency and restores fine-grained spatial details that are often lost during motion alignment. Moreover, we design a Random Access (RA) reference strategy that treats the bidirectionally aligned features as conditional context, enabling frame-level parallel compression and eliminating the sequential encoding. Extensive experiments demonstrate that Bi-FMT surpasses D-DPCC and AdaDPCC in both compression efficiency and runtime, achieving BD-Rate reductions of 20% (D1) and 9.4% (D1), respectively.
- Abstract(参考訳): 効率的な動的点雲圧縮(DPCC)は、正確な動きの推定と補償に依存している。
しかし、本質的に不規則な構造とかなり局所的な点雲の変動は、この課題を非常に困難にしている。
既存のアプローチは、典型的には明示的な動き推定に依存しており、符号化された動きベクトルは複雑なダイナミクスを捉えることができず、時間的相関を不適切に利用している。
これらの制約に対処するために,特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、過去と将来のフレームにまたがって機能を整列させ、時間的に一貫した潜在表現を生成し、条件付きコーディングパイプラインで予測コンテキストとして機能し、統一された ``Motion + Conditional'' 表現を形成する。
この双方向機能アライメントに基づいて,デコーダ側でCTR(Cross-Transformer Refinement Module)を導入し,局所的な特徴を適応的に洗練する。
ベクトル注意を伴うクロスフレーム依存関係をモデル化することにより、CRTは局所的な一貫性を高め、運動アライメント中にしばしば失われる細粒度の空間的詳細を復元する。
さらに、双方向に整列した特徴を条件付きコンテキストとして扱うランダムアクセス(RA)参照戦略を設計し、フレームレベルの並列圧縮を可能にし、シーケンシャルエンコーディングを除去する。
Bi-FMTは圧縮効率とランタイムの両方でD-DPCCとAdaDPCCを上回り、それぞれ20%(D1)と9.4%(D1)のBD-Rate還元を達成した。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - U-Motion: Learned Point Cloud Video Compression with U-Structured Temporal Context Generation [10.435212618849544]
ポイントクラウドビデオ(PCV)は、動的シーンと新興アプリケーションを組み合わせた汎用的な3D表現である。
本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:17:01Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame
Block Matching [35.80653765524654]
3Dダイナミックポイントクラウド(DPC)圧縮は、その時間的コンテキストのマイニングに依存している。
本稿では,階層的ブロックマッチングに基づく予測モジュールを用いた学習型DPC圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T11:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。