論文の概要: AugLift: Boosting Generalization in Lifting-based 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2508.07112v2
- Date: Sat, 16 Aug 2025 19:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.864888
- Title: AugLift: Boosting Generalization in Lifting-based 3D Human Pose Estimation
- Title(参考訳): AugLift:リフティングに基づく3次元人文推定における一般化の促進
- Authors: Nikolai Warner, Wenjin Zhang, Irfan Essa, Apaar Sadhwani,
- Abstract要約: 検出された2Dキーポイントから3Dポーズを予測する方法は、しばしば新しいデータセットや実世界の設定に悪影響を及ぼす。
我々は,データ収集やセンサの追加を必要とせずに,一般化性能を大幅に向上する標準リフトパイプラインの再構成であるemphAugLiftを提案する。
AugLiftはモジュラーアドオンとして機能し、既存のリフトアーキテクチャに簡単に統合できる。
- 参考スコア(独自算出の注目度): 12.127052057927182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifting-based methods for 3D Human Pose Estimation (HPE), which predict 3D poses from detected 2D keypoints, often generalize poorly to new datasets and real-world settings. To address this, we propose \emph{AugLift}, a simple yet effective reformulation of the standard lifting pipeline that significantly improves generalization performance without requiring additional data collection or sensors. AugLift sparsely enriches the standard input -- the 2D keypoint coordinates $(x, y)$ -- by augmenting it with a keypoint detection confidence score $c$ and a corresponding depth estimate $d$. These additional signals are computed from the image using off-the-shelf, pre-trained models (e.g., for monocular depth estimation), thereby inheriting their strong generalization capabilities. Importantly, AugLift serves as a modular add-on and can be readily integrated into existing lifting architectures. Our extensive experiments across four datasets demonstrate that AugLift boosts cross-dataset performance on unseen datasets by an average of $10.1\%$, while also improving in-distribution performance by $4.0\%$. These gains are consistent across various lifting architectures, highlighting the robustness of our method. Our analysis suggests that these sparse, keypoint-aligned cues provide robust frame-level context, offering a practical way to significantly improve the generalization of any lifting-based pose estimation model. Code will be made publicly available.
- Abstract(参考訳): 検出された2Dキーポイントから3Dポーズを予測する3Dヒューマンポース推定(HPE)のリフティングベースの手法は、しばしば新しいデータセットや実世界の設定に悪影響を及ぼす。
そこで本研究では,データ収集やセンサの追加を必要とせず,一般化性能を大幅に向上させる,標準的なリフトパイプラインの簡易かつ効果的な再構成法である \emph{AugLift} を提案する。
AugLiftは、キーポイント検出信頼度スコア$c$と対応する深さ推定値$d$で拡張することで、標準入力 -- 2Dキーポイント座標の$(x, y)$ -- をわずかに強化する。
これらの追加信号は、オフザシェルフ、事前訓練されたモデル(例えば、単眼深度推定)を用いて画像から計算され、強い一般化能力を継承する。
重要なことに、AugLiftはモジュラーアドオンとして機能し、既存のリフトアーキテクチャに簡単に統合できる。
4つのデータセットにわたる広範な実験により、AugLiftは、目に見えないデータセットのクロスデータセットのパフォーマンスを平均10.1\%$で向上し、また、配信中のパフォーマンスを4.0\%$で改善することを示した。
これらの利得は、様々なリフトアーキテクチャ間で一貫しており、我々の手法の堅牢性を強調している。
分析の結果,これらの疎結合なキーポイントアライメントキューはフレームレベルの頑健なコンテキストを提供し,持ち上げ型ポーズ推定モデルの一般化を著しく改善する実用的な方法であることがわかった。
コードは公開されます。
関連論文リスト
- Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。
提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文 参考訳(メタデータ) (2025-10-11T08:13:46Z) - Deepfake Detection that Generalizes Across Benchmarks [63.29485283822232]
この研究は、事前訓練されたCLIPビジョンエンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
2019年から2025年にかけて,13のベンチマークデータセットについて広範な評価を行った。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - 3DAffordSplat: Efficient Affordance Reasoning with 3D Gaussians [82.67236400004826]
人間の指示を3Dオブジェクトの機能領域に関連付けるためには,3D割当推論が不可欠である。
3DAffordSplatは3DGSベースの価格推論に適した,最初の大規模マルチモーダルデータセットである。
AffordSplatNetは,3DGS表現を用いた割当推論に特化して設計された新しいモデルである。
論文 参考訳(メタデータ) (2025-04-15T14:21:47Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.121797302827049]
ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。
本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。
提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2024-11-26T08:01:50Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。