論文の概要: PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation
- arxiv url: http://arxiv.org/abs/2603.22193v2
- Date: Wed, 25 Mar 2026 15:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.984788
- Title: PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation
- Title(参考訳): PAM:Sim-to-Real HOIビデオ生成のためのPose-Performance-Motionエンジン
- Authors: Mingju Gao, Kaisen Yang, Huan-ang Gao, Bohan Li, Ao Ding, Wenyi Li, Yangcheng Yu, Jinkun Liu, Shaocong Xu, Yike Niu, Haohan Chi, Hao Chen, Hao Tang, Yu Zhang, Li Yi, Hao Zhao,
- Abstract要約: PAM: A Pose-Appearance-Motion Engine for controllable HOI video generation。
DexYCBではFVDが29.13(InterDynは38.83)、MPJPEが19.37mm(CosHandは30.05mm)である。
- 参考スコア(独自算出の注目度): 28.212560558538915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-object interaction (HOI) reconstruction and synthesis are becoming central to embodied AI and AR/VR. Yet, despite rapid progress, existing HOI generation research remains fragmented across three disjoint tracks: (1) pose-only synthesis that predicts MANO trajectories without producing pixels; (2) single-image HOI generation that hallucinates appearance from masks or 2D cues but lacks dynamics; and (3) video generation methods that require both the entire pose sequence and the ground-truth first frame as inputs, preventing true sim-to-real deployment. Inspired by the philosophy of Joo et al. (2018), we think that HOI generation requires a unified engine that brings together pose, appearance, and motion within one coherent framework. Thus we introduce PAM: a Pose-Appearance-Motion Engine for controllable HOI video generation. The performance of our engine is validated by: (1) On DexYCB, we obtain an FVD of 29.13 (vs. 38.83 for InterDyn), and MPJPE of 19.37 mm (vs. 30.05 mm for CosHand), while generating higher-resolution 480x720 videos compared to 256x256 and 256x384 baselines. (2) On OAKINK2, our full multi-condition model improves FVD from 68.76 to 46.31. (3) An ablation over input conditions on DexYCB shows that combining depth, segmentation, and keypoints consistently yields the best results. (4) For a downstream hand pose estimation task using SimpleHand, augmenting training with 3,400 synthetic videos (207k frames) allows a model trained on only 50% of the real data plus our synthetic data to match the 100% real baseline.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)の再構築と合成は、AIとAR/VRの具体化の中心となっている。
しかし, 高速な進展にもかかわらず, 既存のHOI生成研究は, 1) 画素を作らずにMANO軌道を予測できるポーズのみの合成, (2) マスクや2Dキューからの出現を幻覚させるがダイナミクスを欠くシングルイメージのHOI生成, (3) ポーズシーケンス全体と接地構造第1フレームの両方を入力として要求するビデオ生成手法の3つの相違点に断片化している。
Joo et al (2018)の哲学に触発されて、HOI生成には一貫した枠組みの中でポーズ、外観、動きをもたらす統一されたエンジンが必要であると考える。
そこで我々は,制御可能なHOIビデオ生成のためのPAM: Pose-Appearance-Motion Engineを紹介する。
DexYCBでは、FVDが29.13(InterDynは38.83)、MPJPEが19.37mm(CosHandは30.05mm)となり、高解像度の480x720ビデオが256x256および256x384ベースラインに対して生成される。
2) OAKINK2では,FVDを68.76から46.31に改善した。
(3)DexYCBの入力条件に対するアブレーションは、深さ、セグメンテーション、キーポイントの組み合わせが常に最良の結果をもたらすことを示している。
(4) SimpleHand を用いた下流手動ポーズ推定タスクでは,3,400 の合成ビデオ (207k フレーム) を用いたトレーニングにより,実データの 50% と合成データの 100% の基準値に適合するモデルの訓練が可能になる。
関連論文リスト
- DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control [16.562259973551786]
本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。
DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。
これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
論文 参考訳(メタデータ) (2026-03-11T06:03:53Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - Masked Modeling for Human Motion Recovery Under Occlusions [21.05382087890133]
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。
MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2026-01-22T16:22:20Z) - MAD: Motion Appearance Decoupling for efficient Driving World Models [94.40548866741791]
本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
論文 参考訳(メタデータ) (2026-01-14T12:52:23Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - MoSt-DSA: Modeling Motion and Structural Interactions for Direct Multi-Frame Interpolation in DSA Images [31.357770667947907]
我々は,デジタルサブトラクション・アンギオグラフィーフレームにディープラーニングを用いた最初の研究であるMoSt-DSAを提案する。
未知あるいは粗粒な特徴を抽出する自然シーンビデオフレーム補間(VFI)法とは異なり、フレーム間の動きと構造的コンテキストの相互作用を効率的な完全畳み込み方式でモデル化する汎用モジュールを考案する。
MoSt-DSAは470のDSA画像シーケンスで堅牢な結果を示し、平均SSIMは0.93以上、PSNRは38以上(それぞれ0.030未満、PSNRは3.6以下)、精度、速度、視覚効果を総合的に達成している。
論文 参考訳(メタデータ) (2024-07-09T17:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。