Fugu-MT 論文翻訳(概要): Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression

論文の概要: Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression

arxiv url: http://arxiv.org/abs/2509.14591v1
Date: Thu, 18 Sep 2025 03:51:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-19 17:26:53.053917
Title: Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression
Title（参考訳）: 効率的なダイナミックポイントクラウド圧縮のための特徴整列運動変換
Authors: Xuan Deng, Xiandong Meng, Longguang Wang, Tiange Zhang, Xiaopeng Fan, Debin Zhao,
Abstract要約: 動的ポイントクラウド圧縮のためのFMT(Motion Transformation Feature)フレームワークを提案する。 FMTは明示的な運動ベクトルを連続時間変動を暗黙的にモデル化するアライメント戦略に置き換える。本手法は, 符号化効率と復号効率の両方でD-DPCCおよびAdaDPCCを上回り, 20%, 9.4%のBD-Rate還元を達成する。
参考スコア（独自算出の注目度）: 96.50160784402338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamic point clouds are widely used in applications such as immersive reality, robotics, and autonomous driving. Efficient compression largely depends on accurate motion estimation and compensation, yet the irregular structure and significant local variations of point clouds make this task highly challenging. Current methods often rely on explicit motion estimation, whose encoded vectors struggle to capture intricate dynamics and fail to fully exploit temporal correlations. To overcome these limitations, we introduce a Feature-aligned Motion Transformation (FMT) framework for dynamic point cloud compression. FMT replaces explicit motion vectors with a spatiotemporal alignment strategy that implicitly models continuous temporal variations, using aligned features as temporal context within a latent-space conditional encoding framework. Furthermore, we design a random access (RA) reference strategy that enables bidirectional motion referencing and layered encoding, thereby supporting frame-level parallel compression. Extensive experiments demonstrate that our method surpasses D-DPCC and AdaDPCC in both encoding and decoding efficiency, while also achieving BD-Rate reductions of 20% and 9.4%, respectively. These results highlight the effectiveness of FMT in jointly improving compression efficiency and processing performance.
Abstract（参考訳）: ダイナミックポイントクラウドは、没入型現実、ロボット工学、自律運転などのアプリケーションで広く利用されている。効率的な圧縮は正確な運動推定と補償に大きく依存するが、不規則な構造と点雲のかなりの局所的な変動は、この仕事を非常に困難にしている。現在の手法は、しばしば明示的な運動推定に依存しており、符号化されたベクトルは複雑なダイナミクスを捉えるのに苦労し、時間的相関を完全に活用できない。このような制限を克服するために,動的ポイントクラウド圧縮のための機能整合型モーショントランスフォーメーション(FMT)フレームワークを導入する。 FMTは明示的な運動ベクトルを時空間の時間的変動を暗黙的にモデル化する時空間アライメント戦略に置き換える。さらに、双方向動作参照と階層化符号化を可能にするランダムアクセス(RA)参照戦略を設計し、フレームレベルの並列圧縮をサポートする。本手法は, 符号化効率と復号効率の両方でD-DPCCとAdaDPCCを上回り, BD-Rateの20%, 9.4%の削減を実現した。これらの結果から,FMTの圧縮効率と処理性能を両立させる効果が示された。

関連論文リスト

Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文参考訳（メタデータ） (2025-12-24T14:07:04Z)
Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment [92.57576987521107]
両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。 QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
論文参考訳（メタデータ） (2025-12-11T09:14:51Z)
Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文参考訳（メタデータ） (2025-04-23T06:44:46Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。 MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文参考訳（メタデータ） (2025-01-08T16:41:31Z)
Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文参考訳（メタデータ） (2025-01-07T11:03:43Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文参考訳（メタデータ） (2024-12-22T02:04:17Z)
U-Motion: Learned Point Cloud Video Compression with U-Structured Temporal Context Generation [10.435212618849544]
ポイントクラウドビデオ(PCV)は、動的シーンと新興アプリケーションを組み合わせた汎用的な3D表現である。本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
論文参考訳（メタデータ） (2024-11-21T07:17:01Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame Block Matching [35.80653765524654]
3Dダイナミックポイントクラウド(DPC)圧縮は、その時間的コンテキストのマイニングに依存している。本稿では,階層的ブロックマッチングに基づく予測モジュールを用いた学習型DPC圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-09T11:44:13Z)
Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。 MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文参考訳（メタデータ） (2021-10-01T16:52:03Z)
Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文参考訳（メタデータ） (2021-03-23T03:06:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。