論文の概要: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model
- arxiv url: http://arxiv.org/abs/2603.14686v1
- Date: Mon, 16 Mar 2026 00:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.966597
- Title: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model
- Title(参考訳): MVHOI:3Dファウンデーションモデルによる複雑物体間相互作用ビデオ再生への多視点ブリッジ
- Authors: Jinguang Tong, Jinbo Wu, Kaisiyuan Wang, Zhelun Shen, Xuan Huang, Mochu Xiang, Xuesong Li, Yingying Li, Haocheng Feng, Chen Zhao, Hang Zhou, Wei He, Chuong Nguyen, Jingdong Wang, Hongdong Li,
- Abstract要約: 人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、デジタル人間の創造のフロンティアである。
マルチビュー参照条件とビデオ基盤モデルをブリッジする2段階のHOIビデオ再現フレームワークであるMVHOIを提案する。
本フレームワークは,複雑なオブジェクト操作による長期HOIビデオの生成において,優れた性能を示す。
- 参考スコア(独自算出の注目度): 83.12400850233034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.
- Abstract(参考訳): 人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、表現力のあるデジタル人間の創造のフロンティアである。
既存のアプローチは主に単純な画像平面運動(例えば、平面内変換)を扱うもので、外面再配向のような複雑な非平面的な操作に悩まされている。
本稿では,3Dファウンデーションモデル(3DFM)を用いて,多視点参照条件と映像基盤モデルをブリッジする2段階HOIビデオ再現フレームワークMVHOIを提案する。
3DFMは、新しい視点で暗黙の運動力学を前提とした、ビュー一貫性のあるオブジェクトを最初に生成する。
制御可能なビデオ生成モデルは、多視点参照画像を組み込んで高忠実度オブジェクトテクスチャを合成し、合理的な検索機構を通じて外観整合性を確保する。
これら2つのステージを推論フェーズで相互に強化することにより、複雑なオブジェクト操作による長期HOIビデオの生成において、優れた性能を示す。
大規模な実験は、特に複雑な3Dオブジェクト操作を持つHOIに対して、以前のアプローチよりも大幅に改善されている。
関連論文リスト
- SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis [47.61773799705708]
同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。
本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-24T17:14:19Z) - View-Consistent Diffusion Representations for 3D-Consistent Video Generation [60.68052293389281]
現在生成されているビデオには、3Dの不整合による視覚的アーティファクトが含まれている。
マルチビューで一貫した拡散表現を学習することで,ビデオモデルの3次元一貫性を改善するための新しいアプローチであるViCoDRを提案する。
論文 参考訳(メタデータ) (2025-11-24T11:16:55Z) - VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video [60.63575135514847]
モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。
本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
論文 参考訳(メタデータ) (2025-09-22T11:52:02Z) - ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。
ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。
以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T17:59:56Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。