論文の概要: GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection
- arxiv url: http://arxiv.org/abs/2603.06048v1
- Date: Fri, 06 Mar 2026 09:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.395889
- Title: GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection
- Title(参考訳): Genhoi: 時間的バランスと空間的選択的オブジェクト注入によるオブジェクトとオブジェクトの相互作用を目指して
- Authors: Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang,
- Abstract要約: GenHOIは、事前訓練されたビデオ生成モデルに対する軽量な拡張である。
参照オブジェクト情報を時間的にバランスよく空間的に選択的に注入する。
GenHOIは最先端のHOI再現やオールインワンのビデオ編集方法よりも優れています。
- 参考スコア(独自算出の注目度): 54.879037588415656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-Object Interaction (HOI) remains a core challenge in digital human video synthesis, where models must generate physically plausible contact and preserve object identity across frames. Although recent HOI reenactment approaches have achieved progress, they are typically trained and evaluated in-domain and fail to generalize to complex, in-the-wild scenarios. In contrast, all-in-one video editing models exhibit broader robustness but still struggle with HOI-specific issues such as inconsistent object appearance. In this paper, we present GenHOI, a lightweight augmentation to pretrained video generation models that injects reference-object information in a temporally balanced and spatially selective manner. For temporal balancing, we propose Head-Sliding RoPE, which assigns head-specific temporal offsets to reference tokens, distributing their influence evenly across frames and mitigating the temporal decay of 3D RoPE to improve long-range object consistency. For spatial selectivity, we design a two-level spatial attention gate that concentrates object-conditioned attention on HOI regions and adaptively scales its strength, preserving background realism while enhancing interaction fidelity. Extensive qualitative and quantitative evaluations on unseen, in-the-wild scenes demonstrate that GenHOI significantly outperforms state-of-the-art HOI reenactment and all-in-one video editing methods. Project page: https://xuanhuang0.github.io/GenHOI/
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)はデジタル人間のビデオ合成において依然として中心的な課題であり、モデルが物理的に妥当な接触を生成し、フレーム全体でオブジェクトのアイデンティティを保持する必要がある。
最近のHOI再現アプローチは進歩を遂げているが、通常はドメイン内で訓練され評価され、複雑なインザワイルドシナリオへの一般化に失敗する。
対照的に、オールインワンのビデオ編集モデルはより広範な堅牢性を示すが、一貫性のないオブジェクトの外観のようなHOI固有の問題に苦戦している。
本稿では,時間的バランスの取れた空間的選択的な方法で参照対象情報を注入する,事前学習ビデオ生成モデルに対する軽量化であるGenHOIを提案する。
本稿では,頭部固有の時間オフセットを基準トークンに割り当て,フレーム間を均等に分散し,長期オブジェクトの整合性を改善するために3D RoPEの時間減衰を緩和するヘッドスライディングRoPEを提案する。
空間選択性のために,HoI領域にオブジェクト条件の注意を集中させ,その強度を適応的に拡張する2レベル空間注意ゲートを設計し,相互作用の忠実性を高めながら背景リアリズムを保った。
GenHOIは最先端のHOI再現法とオールインワンビデオ編集法を著しく上回っていることを示す。
プロジェクトページ:https://xuanhuang0.github.io/GenHOI/
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer [43.58952721477297]
そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。
具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T13:41:43Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。