Fugu-MT 論文翻訳(概要): U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation

論文の概要: U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation

arxiv url: http://arxiv.org/abs/2411.14501v1
Date: Thu, 21 Nov 2024 07:17:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.982065
Title: U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation
Title（参考訳）: U-Motion:U-Structured Motion Estimationによる学習点雲圧縮
Authors: Tingyu Fan, Yueyu Hu, Yao Wang,
Abstract要約: ポイントクラウドビデオ(PCV)は、多くの新興アプリケーションを持つダイナミックシーンの汎用的な3D表現である。本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
参考スコア（独自算出の注目度）: 9.528405963599997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Point cloud video (PCV) is a versatile 3D representation of dynamic scenes with many emerging applications. This paper introduces U-Motion, a learning-based compression scheme for both PCV geometry and attributes. We propose a U-Structured multiscale inter-frame prediction framework, U-Inter, which performs layer-wise explicit motion estimation and compensation (ME/MC) at different scales with varying levels of detail. It integrates both higher and lower-scale motion features, in addition to the information of current and previous frames, to enable accurate motion estimation at the current scale. In addition, we design a cascaded spatial predictive coding module to capture the inter-scale spatial redundancy remaining after U-Inter prediction. We further propose an effective context detach and restore scheme to reduce spatial-temporal redundancy in the motion and latent bit-streams and improve compression performance. We conduct experiments following the MPEG Common Test Condition and demonstrate that U-Motion can achieve significant gains over MPEG G-PCC-GesTM v3.0 and recently published learning-based methods for both geometry and attribute compression.
Abstract（参考訳）: ポイントクラウドビデオ(PCV)は、多くの新興アプリケーションを持つダイナミックシーンの汎用的な3D表現である。本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。 U-Structured Multiscale inter-frame prediction framework (U-Inter) を提案する。これは、現在のフレームと以前のフレームの情報に加えて、高階と低階の両方のモーション特徴を統合し、現在のスケールでの正確なモーション推定を可能にする。さらに,U-Inter予測後に残る大規模空間冗長性を捉えるために,カスケード型空間予測符号化モジュールを設計する。さらに,動作と遅延ビットストリームの空間的冗長性を低減し,圧縮性能を向上させるための効果的なコンテキストデタッチと復元手法を提案する。我々はMPEG共通試験条件に従って実験を行い、U-MotionがMPEG G-PCC-GesTM v3.0よりも大幅に向上できること、および最近発表された幾何学と属性の圧縮の学習に基づく手法を実証した。

関連論文リスト

D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos [12.24209693552492]
自由視点ビデオ(FVV)は没入型3D体験を可能にするが、動的3D表現の効率的な圧縮は依然として大きな課題である。本稿では,時間的に相関したガウス点雲列を圧縮する新しいフィードフォワードフレームワークである動的ガウス散乱(D-FCGS)のフィードフォワード圧縮を提案する。実験の結果,最適化手法の速度歪み特性と一致し,40倍以上の圧縮を2秒以内で達成した。
論文参考訳（メタデータ） (2025-07-08T10:39:32Z)
Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Uniformly Accelerated Motion Model for Inter Prediction [38.34487653360328]
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。 Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文参考訳（メタデータ） (2024-07-16T09:46:29Z)
Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文参考訳（メタデータ） (2023-10-19T13:32:38Z)
Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文参考訳（メタデータ） (2023-09-21T09:23:13Z)
Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame Block Matching [35.80653765524654]
3Dダイナミックポイントクラウド(DPC)圧縮は、その時間的コンテキストのマイニングに依存している。本稿では,階層的ブロックマッチングに基づく予測モジュールを用いた学習型DPC圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-09T11:44:13Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Learned Video Compression via Heterogeneous Deformable Compensation Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-07-11T02:31:31Z)
D-DPCC: Deep Dynamic Point Cloud Compression via 3D Motion Prediction [18.897023700334458]
本稿では,新しい3次元スパース畳み込みを用いたDeep Dynamic Point Cloud Compressionネットワークを提案する。 DPC形状を3次元の運動推定と特徴空間での運動補償で補償し圧縮する。実験結果から,提案したD-DPCCフレームワークは,映像ベースのポイントクラウド圧縮(V-PCC)v13に対して,平均76%のBDレート(Bjontegaard Delta Rate)を達成した。
論文参考訳（メタデータ） (2022-05-02T18:10:45Z)
Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。 MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文参考訳（メタデータ） (2021-10-01T16:52:03Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)
FVC: A New Framework towards Deep Video Compression in Feature Space [21.410266039564803]
特徴空間におけるすべての主要な操作(動き推定、動き圧縮、動き補償、残差圧縮)を実行することで特徴空間ビデオ符号化ネットワーク(FVC)を提案する。提案フレームワークは,HEVC,UVG,VTL,MCL-JCVを含む4つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-05-20T08:55:32Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)
Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文参考訳（メタデータ） (2020-09-10T02:31:50Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。