論文の概要: STAR-Pose: Efficient Low-Resolution Video Human Pose Estimation via Spatial-Temporal Adaptive Super-Resolution
- arxiv url: http://arxiv.org/abs/2506.16061v1
- Date: Thu, 19 Jun 2025 06:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.962132
- Title: STAR-Pose: Efficient Low-Resolution Video Human Pose Estimation via Spatial-Temporal Adaptive Super-Resolution
- Title(参考訳): STAR-Pose:時空間適応型スーパーリゾリューションによる効率的な低解像度ビデオヒューマンポーズ推定
- Authors: Yucheng Jin, Jinyan Chen, Ziyue He, Baojun Han, Furan An,
- Abstract要約: 映像に基づく人間のポーズ推定に特化して設計された時空間適応型超解像フレームワークを提案する。
提案手法は,LakyReLU修飾線形アテンションを用いた空間時間変換器を特徴とする。
極低分解能(64x48)条件下では最大5.2%のmAP改善を実現し、カスケードアプローチよりも2.8倍から4.4倍高速な推論を実現する。
- 参考スコア(独自算出の注目度): 2.3324945410076685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation in low-resolution videos presents a fundamental challenge in computer vision. Conventional methods either assume high-quality inputs or employ computationally expensive cascaded processing, which limits their deployment in resource-constrained environments. We propose STAR-Pose, a spatial-temporal adaptive super-resolution framework specifically designed for video-based human pose estimation. Our method features a novel spatial-temporal Transformer with LeakyReLU-modified linear attention, which efficiently captures long-range temporal dependencies. Moreover, it is complemented by an adaptive fusion module that integrates parallel CNN branch for local texture enhancement. We also design a pose-aware compound loss to achieve task-oriented super-resolution. This loss guides the network to reconstruct structural features that are most beneficial for keypoint localization, rather than optimizing purely for visual quality. Extensive experiments on several mainstream video HPE datasets demonstrate that STAR-Pose outperforms existing approaches. It achieves up to 5.2% mAP improvement under extremely low-resolution (64x48) conditions while delivering 2.8x to 4.4x faster inference than cascaded approaches.
- Abstract(参考訳): 低解像度ビデオにおける人間のポーズ推定は、コンピュータビジョンにおける根本的な課題である。
従来の手法では、高品質な入力を前提とするか、計算に高価なカスケード処理を採用し、リソース制約のある環境への展開を制限する。
ビデオに基づく人間のポーズ推定に特化して設計された時空間適応型超分解能フレームワークSTAR-Poseを提案する。
提案手法は,LakyReLU修飾線形アテンションを用いた空間時間変換器を特徴とする。
さらに、局所的なテクスチャ強化のために並列CNNブランチを統合するアダプティブフュージョンモジュールによって補完される。
また、タスク指向超解像を実現するために、ポーズ対応複合損失を設計する。
この損失は、純粋に視覚的品質に最適化するのではなく、キーポイントのローカライゼーションに最も有用な構造的特徴を再構築するネットワークを導く。
いくつかの主流ビデオHPEデータセットに対する大規模な実験は、STAR-Poseが既存のアプローチより優れていることを示している。
極低分解能(64x48)条件下では最大5.2%のmAP改善を実現し、カスケードアプローチよりも2.8倍から4.4倍高速な推論を実現する。
関連論文リスト
- Super-Resolution for Remote Sensing Imagery via the Coupling of a Variational Model and Deep Learning [20.697932997351813]
リモートセンシング画像再構成のための勾配誘導マルチフレーム超解像(MFSR)フレームワーク
リモートセンシング画像再構成のための新しい勾配誘導型マルチフレーム超解像(MFSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-13T04:19:48Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [73.50359502037232]
VoxNeRFは、ニューラル室内再構成と新しいビュー合成の質と効率を高めるための新しいアプローチである。
本稿では,最も関連性の高い領域に計算資源を割り当てる効率的なボクセル誘導サンプリング手法を提案する。
私たちのアプローチは、ScanNetとScanNet++に関する広範な実験で検証されています。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z) - End-To-End Trainable Video Super-Resolution Based on a New Mechanism for
Implicit Motion Estimation and Compensation [19.67999205691758]
ビデオの超解像度は、低解像度のビデオから高解像度のビデオを生成することを目指している。
本研究では,暗黙の動作推定と補償を行うための動的局所フィルタネットワークを提案する。
また,ResBlockとオートエンコーダ構造に基づくグローバルリファインメントネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-05T03:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。