論文の概要: iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2506.12847v1
- Date: Sun, 15 Jun 2025 13:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.998818
- Title: iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer
- Title(参考訳): iDiT-HOI:ビデオ拡散変換器による塗り絵によるハンドオブジェクトインタラクションの再現
- Authors: Zhelun Shen, Chenming Wu, Junsheng Zhou, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Yingying Li, Haocheng Feng, Wei He, Jingdong Wang,
- Abstract要約: そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。
具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
- 参考スコア(独自算出の注目度): 43.58952721477297
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Digital human video generation is gaining traction in fields like education and e-commerce, driven by advancements in head-body animation and lip-syncing technologies. However, realistic Hand-Object Interaction (HOI) - the complex dynamics between human hands and objects - continues to pose challenges. Generating natural and believable HOI reenactments is difficult due to issues such as occlusion between hands and objects, variations in object shapes and orientations, and the necessity for precise physical interactions, and importantly, the ability to generalize to unseen humans and objects. This paper presents a novel framework iDiT-HOI that enables in-the-wild HOI reenactment generation. Specifically, we propose a unified inpainting-based token process method, called Inp-TPU, with a two-stage video diffusion transformer (DiT) model. The first stage generates a key frame by inserting the designated object into the hand region, providing a reference for subsequent frames. The second stage ensures temporal coherence and fluidity in hand-object interactions. The key contribution of our method is to reuse the pretrained model's context perception capabilities without introducing additional parameters, enabling strong generalization to unseen objects and scenarios, and our proposed paradigm naturally supports long video generation. Comprehensive evaluations demonstrate that our approach outperforms existing methods, particularly in challenging real-world scenes, offering enhanced realism and more seamless hand-object interactions.
- Abstract(参考訳): デジタルビデオ生成は、ヘッドボディアニメーションやリップシンク技術の進歩によって、教育やeコマースなどの分野で勢いを増している。
しかし、人間とオブジェクトの間の複雑なダイナミクスである現実的なハンドオブジェクトインタラクション(HOI)は、引き続き課題を提起している。
自然で信じがたいHOIの再現は、手と物体の閉塞、物体の形状や方向の変化、正確な物理的相互作用の必要性、そして重要なことは、目に見えない人間や物体に一般化する能力など、困難である。
そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。
具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
第1ステージは、指定したオブジェクトをハンド領域に挿入してキーフレームを生成し、その後のフレームの参照を提供する。
第2段階は、手-対象相互作用における時間的コヒーレンスと流動性を保証する。
提案手法の主な貢献は、追加パラメータを導入することなく事前学習したモデルの文脈認識能力を再利用し、オブジェクトやシナリオを強く一般化することであり、提案手法は長大なビデオ生成を自然にサポートする。
包括的評価により,本手法は既存の手法,特に実世界の挑戦シーンにおいて,拡張リアリズムとよりシームレスなハンドオブジェクトインタラクションを提供する上で,優れた性能を発揮することが示された。
関連論文リスト
- DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers [30.583932208752877]
電子商取引とデジタルマーケティングでは、高忠実な人間製品デモビデオを生成することが重要である。
人間のアイデンティティと製品固有の詳細を保存するための拡散変換器(DiT)ベースのフレームワークを提案する。
我々は3Dボディーメッシュテンプレートと製品バウンディングボックスを用いて、正確な動作ガイダンスを提供し、手ジェスチャーと製品配置の直感的なアライメントを可能にする。
論文 参考訳(メタデータ) (2025-06-12T10:58:23Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - Novel-view Synthesis and Pose Estimation for Hand-Object Interaction
from Sparse Views [41.50710846018882]
スパースビューから手動物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案する。
まず,手や物体の形状や外観を,神経表現と別々に学習する。
オンライン段階では、動的手-物体相互作用を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-22T05:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。