論文の概要: FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2605.14854v2
- Date: Sat, 16 May 2026 00:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.006242
- Title: FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery
- Title(参考訳): FactorizedHMR - ビデオヒューマンメッシュリカバリのためのハイブリッドフレームワーク
- Authors: Patrick Kwon, Chen Chen,
- Abstract要約: HMR(Human Mesh Recovery)は基本的に曖昧である。
本稿では,これら2つの状態の異なる2段階のフレームワークであるFacterizedHMRを提案する。
FactorizedHMRは、カメラスペースとワールドスペースのベンチマークにおいて、強力なベースラインと競合し続けている。
- 参考スコア(独自算出の注目度): 6.1625435030904745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human Mesh Recovery (HMR) is fundamentally ambiguous: under occlusion or weak depth cues, multiple 3D bodies can explain the same image evidence. This ambiguity is not uniform across the body, as torso pose and root structure are often relatively well constrained, whereas distal articulations such as the arms and legs are more uncertain. Building on this observation, we propose FactorizedHMR, a two-stage framework that treats these two regimes differently. A deterministic regression module first recovers a stable torso-root anchor, and a probabilistic flow-matching module then completes the remaining non-torso articulation. To make this completion reliable, we combine a composite target representation with geometry-aware supervision and feature-aware classifier-free guidance, preserving the torso-root anchor while improving single-reference recovery of ambiguity-prone articulation. We also introduce a synthetic data pipeline that provides the paired image-camera-motion supervision under diverse viewpoints. Across camera-space and world-space benchmarks, FactorizedHMR remains competitive with strong baselines, with the clearest gains in occlusion-heavy recovery and drift-sensitive world-space metrics.
- Abstract(参考訳): 人間のメッシュ回復(Human Mesh Recovery、HMR)は基本的に曖昧で、咬合力や深度が弱い場合、複数の3Dボディが同じ画像証拠を説明できる。
このあいまいさは体全体に均一ではなく、胴体ポーズや根の構造が比較的よく拘束されているのに対し、腕や脚などの遠位関節はより不明瞭である。
本研究は,これら2つの状態の異なる2段階のフレームワークであるFacterizedHMRを提案する。
決定論的回帰モジュールはまず安定な胴根アンカーを回復し、確率論的フローマッチングモジュールは残りの非トーソ調音を完了させる。
この完成を確実なものにするため, 合成対象表現と幾何学的監視と特徴認識型分類器フリーガイダンスを組み合わせ, 胴根アンカーを保存し, あいまいさと伴な調音の単一参照回復を改善した。
また,多様な視点で画像・カメラ・モーションの監視を行うための合成データパイプラインも導入する。
カメラスペースと世界空間のベンチマーク全体において、FactizedHMRは強力なベースラインと競合し続けている。
関連論文リスト
- ResiHMR: Residual-Limb Aware Single-Image 3D Human Mesh Recovery for Individuals with Limb Loss [28.590347498910006]
本稿では,ResiHMRについて述べる。
我々の知る限りでは、これは残留肢表面を明示的に再構成する初めての単一像HMRシステムである。
論文 参考訳(メタデータ) (2026-04-30T15:42:17Z) - Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery [5.966636064805421]
単眼RGB画像からの3次元メッシュの回収は、下流の応用のために解剖学的に妥当な3次元モデルを推定することを目的としている。
本稿では,視覚変換器の識別能力と条件付き拡散モデルの生成能力を統合する脳誘発フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-20T20:31:54Z) - VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery [75.62565146049015]
我々は、予測メッシュの文脈認識品質スコアを生成するために、自己回帰付きデュアルメモリ拡張HMRクオリティエージェントを導入する。
これらのスコアは、人間の3次元運動構造、物理的実現可能性、入力画像との整合性に関するきめ細かい手がかりを蒸留する。
拡散型HMRモデルの微調整のためのグループ選好アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-22T13:19:06Z) - Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration [31.878334664450776]
セマンティックロジックと連続的なテクスチャ生成を統合した階層型フレームワークである textbfPrefRestore を提案する。
本手法は,2つの相補的戦略により,この情報格差を根本的に解決する。
Pref-Restoreは、合成および実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-27T11:50:31Z) - BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition [12.973657570368317]
この研究は、信頼性モデリングとマルチモーダル統合を統一し、スケルトン内ドメインとクロスモーダルドメインの両方にわたる不確実性の下で専門的な学習を一般化する確率的デュアルストリームフレームワークを提案する。
本フレームワークは,(1)標準空間変換を除去し,ネイティブ座標から直接学習するキャリブレーションフリー前処理パイプライン,(2)信頼を必要とせず,信頼性に配慮した2重ストリーム学習を安定化する確率的ノイズOR融合,(3)4つの骨格モーダル(関節,骨,関節運動,骨運動)をRGB表現に結合し,構造的および視覚的運動をブリッジングする内部から横断的なアンサンブルからなる。
論文 参考訳(メタデータ) (2026-01-01T15:13:11Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。