Fugu-MT 論文翻訳(概要): H-Flow: Self-supervised Human Scene Flow via Physics-inspired Joint Multi-modal Learning

論文の概要: H-Flow: Self-supervised Human Scene Flow via Physics-inspired Joint Multi-modal Learning

arxiv url: http://arxiv.org/abs/2605.22629v1
Date: Thu, 21 May 2026 15:38:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 20:14:18.597519
Title: H-Flow: Self-supervised Human Scene Flow via Physics-inspired Joint Multi-modal Learning
Title（参考訳）: H-Flow:物理にインスパイアされた共同マルチモーダル学習による自己教師型ヒューマンシーンフロー
Authors: Zhanbo Huang, Xiaoming Liu, Yu Kong,
Abstract要約: パラメトリック・ヒューマン・モデルは、グローバルなポーズを捉えているが、衣服や軟組織の非剛性表面のダイナミクスを表現できない。骨格運動と表面変形の両方を捉える密集した人間のシーンフローであるH-Flowを紹介する。統一型マルチヘッドトランスは、単眼ビデオからのフローを推定し、協調出力としてポーズと深さを共同予測する。
参考スコア（独自算出の注目度）: 18.21792698872665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parametric human models capture global pose but cannot represent the non-rigid surface dynamics of clothing and soft tissue. Generic scene flow estimates dense motion but breaks down on articulated bodies, where pixel-level supervision is also intractable to acquire. We introduce H-Flow, a dense human scene flow that captures both skeletal kinematics and surface deformation. A unified multi-head transformer estimates flow from monocular video, jointly predicting pose and depth as companion outputs. The challenge lies in the lack of supervision. In place of unattainable labels, we anchor the network in the physics of human motion, encoding geometric, structural, and biomechanical priors as cross-modal training objectives. We further introduce DynAct4D, a high-fidelity synthetic benchmark providing dense flow annotations across diverse subjects, garments, and motions. On standard benchmarks, H-Flow outperforms scene-flow and parametric baselines, and generalizes zero-shot to in-the-wild video. Code, models, and the DynAct4D benchmark will be released upon publication
Abstract（参考訳）: パラメトリック・ヒューマン・モデルはグローバルなポーズを捉えているが、衣服や軟組織の非剛性表面のダイナミクスを表現できない。ジェネリックシーンフローは、密度の高い動きを推定するが、ピクセルレベルの監視も難易度の高い体に分解する。骨格運動と表面変形の両方を捉える密集した人間のシーンフローであるH-Flowを紹介する。統一型マルチヘッドトランスは、単眼ビデオからのフローを推定し、協調出力としてポーズと深さを共同予測する。課題は監督の欠如にある。到達不可能なラベルの代わりに、人間の動きの物理学においてネットワークを固定し、幾何学的、構造的、生体機械的事前をクロスモーダルトレーニングの目的として符号化する。さらにDynAct4Dについても紹介する。DynAct4Dは多種多様な主題、衣服、動作にまたがる密集したフローアノテーションを提供する高忠実な合成ベンチマークである。標準的なベンチマークでは、H-Flowはシーンフローやパラメトリックベースラインよりも優れており、ゼロショットからインザワイルドビデオまでを一般化している。コード、モデル、DynAct4Dベンチマークが公開される

関連論文リスト

HO-Flow: Generalizable Hand-Object Interaction Generation with Latent Flow Matching [113.81911881001905]
HO-Flowはテキストと正準3Dオブジェクトから現実的な手動動作シーケンスを合成するためのフレームワークである。まず、手動と物体の動きのシーケンスを統一された潜在多様体に符号化するために、相互作用を意識した変分オートエンコーダを用いる。次に、自己回帰的時間的推論と連続的な潜伏生成を組み合わせたマスク付きフローマッチングモデルを利用する。
論文参考訳（メタデータ） (2026-04-12T22:06:11Z)
EgoFlow: Gradient-Guided Flow Matching for Egocentric 6DoF Object Motion Generation [47.32597153743819]
マルチモーダルなエゴセントリックな観測を前提とした,現実的かつ物理的に可視な軌道を合成するフローマッチングフレームワークであるEgoFlowを提案する。この結果は,スケーラブルで物理的に基盤付けられた自我中心の動作理解のためのフローベース生成モデリングの可能性を浮き彫りにした。
論文参考訳（メタデータ） (2026-04-01T21:43:57Z)
EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文参考訳（メタデータ） (2026-02-26T16:53:41Z)
VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文参考訳（メタデータ） (2025-12-10T13:40:24Z)
Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文参考訳（メタデータ） (2024-10-10T10:24:59Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文参考訳（メタデータ） (2021-06-08T16:03:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。