論文の概要: Adversarially-Refined VQ-GAN with Dense Motion Tokenization for Spatio-Temporal Heatmaps
- arxiv url: http://arxiv.org/abs/2509.19252v1
- Date: Tue, 23 Sep 2025 17:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.972729
- Title: Adversarially-Refined VQ-GAN with Dense Motion Tokenization for Spatio-Temporal Heatmaps
- Title(参考訳): 時空間熱マップのための高密度運動トークン化による逆修正VQ-GAN
- Authors: Gabriel Maldonado, Narges Rashvand, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi,
- Abstract要約: 本研究では,時空間熱マップに高密度な動きトークン化を施した逆修正VQ-GANフレームワークを提案する。
提案手法は,高密度な動きトークン化と,非対向ベースラインで観察されるスミアリングや時間的ずれを除去する逆向リファインメントを併用する。
CMU Panoptic データセットに対する我々の実験は、我々の方法が優れているという決定的な証拠を提供し、dVAE ベースラインを 9.31% SSIM で上回り、時間的不安定を 37.1% 削減した。
- 参考スコア(独自算出の注目度): 13.816031528661057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous human motion understanding remains a core challenge in computer vision due to its high dimensionality and inherent redundancy. Efficient compression and representation are crucial for analyzing complex motion dynamics. In this work, we introduce an adversarially-refined VQ-GAN framework with dense motion tokenization for compressing spatio-temporal heatmaps while preserving the fine-grained traces of human motion. Our approach combines dense motion tokenization with adversarial refinement, which eliminates reconstruction artifacts like motion smearing and temporal misalignment observed in non-adversarial baselines. Our experiments on the CMU Panoptic dataset provide conclusive evidence of our method's superiority, outperforming the dVAE baseline by 9.31% SSIM and reducing temporal instability by 37.1%. Furthermore, our dense tokenization strategy enables a novel analysis of motion complexity, revealing that 2D motion can be optimally represented with a compact 128-token vocabulary, while 3D motion's complexity demands a much larger 1024-token codebook for faithful reconstruction. These results establish practical deployment feasibility across diverse motion analysis applications. The code base for this work is available at https://github.com/TeCSAR-UNCC/Pose-Quantization.
- Abstract(参考訳): 連続的な人間の動きの理解は、その高次元性と固有の冗長性のため、コンピュータビジョンにおける中心的な課題である。
効率的な圧縮と表現は複雑な運動力学を解析するのに不可欠である。
本研究では,人間の動きのきめ細かい痕跡を保存しつつ,時空間熱マップを圧縮するための高密度な動きトークン化を備えた逆修正VQ-GANフレームワークを提案する。
提案手法は,高密度な動きトークン化と,非対向ベースラインで観察される動きのスミアリングや時間的ずれといった再構成アーチファクトを除去する逆向リファインメントを併用する。
CMU Panoptic データセットに対する我々の実験は、我々の方法が優れているという決定的な証拠を提供し、dVAE ベースラインを 9.31% SSIM で上回り、時間的不安定を 37.1% 減らした。
さらに,我々の濃密なトークン化戦略により,2次元運動はコンパクトな128の語彙で最適に表現できる一方で,3次元運動の複雑さは忠実な再構築のためにはるかに大きい1024の符号ブックを必要とすることが明らかとなった。
これらの結果は、多様な動作解析アプリケーションにまたがる実用的展開の実現可能性を確立する。
この作業のコードベースはhttps://github.com/TeCSAR-UNCC/Pose-Quantizationで公開されている。
関連論文リスト
- Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [96.50160784402338]
動的ポイントクラウド圧縮のためのFMT(Motion Transformation Feature)フレームワークを提案する。
FMTは明示的な運動ベクトルを連続時間変動を暗黙的にモデル化するアライメント戦略に置き換える。
本手法は, 符号化効率と復号効率の両方でD-DPCCおよびAdaDPCCを上回り, 20%, 9.4%のBD-Rate還元を達成する。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - From Coarse to Continuous: Progressive Refinement Implicit Neural Representation for Motion-Robust Anisotropic MRI Reconstruction [15.340881123379567]
MRIでは、スライス・ツー・ボリュームの再構成は、2次元スライスから一貫した3次元脳の体積を回復するために重要である。
プログレッシブ改良型暗黙的ニューラル表現フレームワーク(PR-INR)を提案する。
我々のPR-INRは、幾何対応座標空間内での運動補正、構造改善、体積合成を統一する。
論文 参考訳(メタデータ) (2025-06-19T10:58:43Z) - Motion Matters: Compact Gaussian Streaming for Free-Viewpoint Video Reconstruction [57.76758872762516]
3D Gaussian Splatting (3DGS)は、オンライン自由視点ビデオ(FVV)再構成のための高忠実で効率的なパラダイムとして登場した。
本研究では,動的シーンにおける動きの局所性と一貫性を活かした,コンパクトガウスストリーミング(ComGS)フレームワークを提案する。
ComGS は 3DGStream や 14X に比べて 159 X 以上のストレージ削減を実現している。
論文 参考訳(メタデータ) (2025-05-22T11:22:09Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - Retrospective Motion Correction in Gradient Echo MRI by Explicit Motion
Estimation Using Deep CNNs [0.0]
深部畳み込み神経回路網(深部CNN)を用いた動きアーチファクトの補正手法を提案する。
我々は、Deep CNNを用いて、より複雑な運動場に剛性運動補償の概念を一般化できることを示した。
論文 参考訳(メタデータ) (2023-03-30T09:16:13Z) - Neural Computed Tomography [1.7188280334580197]
一連のプロジェクションの取得時の運動は、CT再構成において重要な運動アーティファクトにつながる可能性がある。
動作成果物から解放された時間分解画像を生成するための新しい再構成フレームワークであるNeuralCTを提案する。
論文 参考訳(メタデータ) (2022-01-17T18:50:58Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。