論文の概要: Adversarially-Refined VQ-GAN with Dense Motion Tokenization for Spatio-Temporal Heatmaps
- arxiv url: http://arxiv.org/abs/2509.19252v1
- Date: Tue, 23 Sep 2025 17:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.972729
- Title: Adversarially-Refined VQ-GAN with Dense Motion Tokenization for Spatio-Temporal Heatmaps
- Title(参考訳): 時空間熱マップのための高密度運動トークン化による逆修正VQ-GAN
- Authors: Gabriel Maldonado, Narges Rashvand, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi,
- Abstract要約: 本研究では,時空間熱マップに高密度な動きトークン化を施した逆修正VQ-GANフレームワークを提案する。
提案手法は,高密度な動きトークン化と,非対向ベースラインで観察されるスミアリングや時間的ずれを除去する逆向リファインメントを併用する。
CMU Panoptic データセットに対する我々の実験は、我々の方法が優れているという決定的な証拠を提供し、dVAE ベースラインを 9.31% SSIM で上回り、時間的不安定を 37.1% 削減した。
- 参考スコア(独自算出の注目度): 13.816031528661057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous human motion understanding remains a core challenge in computer vision due to its high dimensionality and inherent redundancy. Efficient compression and representation are crucial for analyzing complex motion dynamics. In this work, we introduce an adversarially-refined VQ-GAN framework with dense motion tokenization for compressing spatio-temporal heatmaps while preserving the fine-grained traces of human motion. Our approach combines dense motion tokenization with adversarial refinement, which eliminates reconstruction artifacts like motion smearing and temporal misalignment observed in non-adversarial baselines. Our experiments on the CMU Panoptic dataset provide conclusive evidence of our method's superiority, outperforming the dVAE baseline by 9.31% SSIM and reducing temporal instability by 37.1%. Furthermore, our dense tokenization strategy enables a novel analysis of motion complexity, revealing that 2D motion can be optimally represented with a compact 128-token vocabulary, while 3D motion's complexity demands a much larger 1024-token codebook for faithful reconstruction. These results establish practical deployment feasibility across diverse motion analysis applications. The code base for this work is available at https://github.com/TeCSAR-UNCC/Pose-Quantization.
- Abstract(参考訳): 連続的な人間の動きの理解は、その高次元性と固有の冗長性のため、コンピュータビジョンにおける中心的な課題である。
効率的な圧縮と表現は複雑な運動力学を解析するのに不可欠である。
本研究では,人間の動きのきめ細かい痕跡を保存しつつ,時空間熱マップを圧縮するための高密度な動きトークン化を備えた逆修正VQ-GANフレームワークを提案する。
提案手法は,高密度な動きトークン化と,非対向ベースラインで観察される動きのスミアリングや時間的ずれといった再構成アーチファクトを除去する逆向リファインメントを併用する。
CMU Panoptic データセットに対する我々の実験は、我々の方法が優れているという決定的な証拠を提供し、dVAE ベースラインを 9.31% SSIM で上回り、時間的不安定を 37.1% 減らした。
さらに,我々の濃密なトークン化戦略により,2次元運動はコンパクトな128の語彙で最適に表現できる一方で,3次元運動の複雑さは忠実な再構築のためにはるかに大きい1024の符号ブックを必要とすることが明らかとなった。
これらの結果は、多様な動作解析アプリケーションにまたがる実用的展開の実現可能性を確立する。
この作業のコードベースはhttps://github.com/TeCSAR-UNCC/Pose-Quantizationで公開されている。
関連論文リスト
- GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文 参考訳(メタデータ) (2026-02-25T11:36:33Z) - CSGaussian: Progressive Rate-Distortion Compression and Segmentation for 3D Gaussian Splatting [57.73006852239138]
本稿では,3次元ガウススプラッティングの速度歪み最適化圧縮とセグメンテーションのための最初の統一フレームワークを提案する(3DGS)。
速度歪みに最適化された3DGS圧縮の最近の進歩に触発されたこの研究は、セマンティックラーニングを圧縮パイプラインに統合し、デコーダ側アプリケーションをサポートする。
提案方式は暗黙的ニューラル表現に基づくハイパープライアを特徴とし,色属性と意味属性の両方の効率的なエントロピー符号化を実現する。
論文 参考訳(メタデータ) (2026-01-19T08:21:45Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - SirenPose: Dynamic Scene Reconstruction via Geometric Supervision [12.966077380225856]
本稿では,鍵点に基づく幾何監督と特性正弦波表現ネットワークの周期的活性化を統合した幾何認識損失定式化であるSirenPoseを紹介する。
ポーズ推定において、SirenPoseは、絶対軌道誤差の低いMonst3Rと、変換および回転相対ポーズ誤差の低減で性能を向上する。
論文 参考訳(メタデータ) (2025-12-23T17:23:21Z) - From Tokens to Nodes: Semantic-Guided Motion Control for Dynamic 3D Gaussian Splatting [26.57713792657793]
制御密度と動きの複雑さを一致させる動き適応フレームワークを提案する。
既存の最先端手法に比べて,復元品質と効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-10-03T05:33:58Z) - PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement [63.007237197267834]
既存のディープラーニング手法は、主に生理学的モニタリングであり、理論的な堅牢性を欠いている。
本研究では,Navier-Stokes方程式のヘモダイナミックスから導かれる物理インフォームド r パラダイムを提案し,パルス信号が2次系に従うことを示す。
これは、時間的円錐ネットワーク(TCN)を使用する理論的正当性を提供する。
Phase-Netは高い効率で最先端のパフォーマンスを実現し、理論上は基礎的でデプロイ可能な r ソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-29T14:36:45Z) - Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [96.50160784402338]
動的ポイントクラウド圧縮のためのFMT(Motion Transformation Feature)フレームワークを提案する。
FMTは明示的な運動ベクトルを連続時間変動を暗黙的にモデル化するアライメント戦略に置き換える。
本手法は, 符号化効率と復号効率の両方でD-DPCCおよびAdaDPCCを上回り, 20%, 9.4%のBD-Rate還元を達成する。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - From Coarse to Continuous: Progressive Refinement Implicit Neural Representation for Motion-Robust Anisotropic MRI Reconstruction [15.340881123379567]
MRIでは、スライス・ツー・ボリュームの再構成は、2次元スライスから一貫した3次元脳の体積を回復するために重要である。
プログレッシブ改良型暗黙的ニューラル表現フレームワーク(PR-INR)を提案する。
我々のPR-INRは、幾何対応座標空間内での運動補正、構造改善、体積合成を統一する。
論文 参考訳(メタデータ) (2025-06-19T10:58:43Z) - Motion Matters: Compact Gaussian Streaming for Free-Viewpoint Video Reconstruction [57.76758872762516]
3D Gaussian Splatting (3DGS)は、オンライン自由視点ビデオ(FVV)再構成のための高忠実で効率的なパラダイムとして登場した。
本研究では,動的シーンにおける動きの局所性と一貫性を活かした,コンパクトガウスストリーミング(ComGS)フレームワークを提案する。
ComGS は 3DGStream や 14X に比べて 159 X 以上のストレージ削減を実現している。
論文 参考訳(メタデータ) (2025-05-22T11:22:09Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - Retrospective Motion Correction in Gradient Echo MRI by Explicit Motion
Estimation Using Deep CNNs [0.0]
深部畳み込み神経回路網(深部CNN)を用いた動きアーチファクトの補正手法を提案する。
我々は、Deep CNNを用いて、より複雑な運動場に剛性運動補償の概念を一般化できることを示した。
論文 参考訳(メタデータ) (2023-03-30T09:16:13Z) - Neural Computed Tomography [1.7188280334580197]
一連のプロジェクションの取得時の運動は、CT再構成において重要な運動アーティファクトにつながる可能性がある。
動作成果物から解放された時間分解画像を生成するための新しい再構成フレームワークであるNeuralCTを提案する。
論文 参考訳(メタデータ) (2022-01-17T18:50:58Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。