論文の概要: SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2512.01960v1
- Date: Mon, 01 Dec 2025 18:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.012423
- Title: SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation
- Title(参考訳): SpriteHand: リアルタイムのVersatileハンドオブジェクトインタラクションと自動回帰ビデオ生成
- Authors: Zisu Li, Hengye Lyu, Jiaxin Shi, Yufeng Zeng, Mingming Fan, Hanwang Zhang, Chen Liang,
- Abstract要約: 本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
- 参考スコア(独自算出の注目度): 64.3409486422946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling and synthesizing complex hand-object interactions remains a significant challenge, even for state-of-the-art physics engines. Conventional simulation-based approaches rely on explicitly defined rigid object models and pre-scripted hand gestures, making them inadequate for capturing dynamic interactions with non-rigid or articulated entities such as deformable fabrics, elastic materials, hinge-based structures, furry surfaces, or even living creatures. In this paper, we present SpriteHand, an autoregressive video generation framework for real-time synthesis of versatile hand-object interaction videos across a wide range of object types and motion patterns. SpriteHand takes as input a static object image and a video stream in which the hands are imagined to interact with the virtual object embedded in a real-world scene, and generates corresponding hand-object interaction effects in real time. Our model employs a causal inference architecture for autoregressive generation and leverages a hybrid post-training approach to enhance visual realism and temporal coherence. Our 1.3B model supports real-time streaming generation at around 18 FPS and 640x368 resolution, with an approximate 150 ms latency on a single NVIDIA RTX 5090 GPU, and more than a minute of continuous output. Experiments demonstrate superior visual quality, physical plausibility, and interaction fidelity compared to both generative and engine-based baselines.
- Abstract(参考訳): 複雑な手-物体相互作用のモデリングと合成は、最先端の物理エンジンでさえも重要な課題である。
従来のシミュレーションに基づくアプローチは、明確に定義された厳密なオブジェクトモデルと手の動きに依存しており、変形可能な織物、弾性材料、ヒンジベースの構造、毛皮の表面、さらには生物との動的相互作用を捉えるのに不十分である。
本稿では,多目的ハンドオブジェクトインタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
SpriteHandは、現実世界のシーンに埋め込まれた仮想オブジェクトと手の動きを想像できる静的なオブジェクトイメージとビデオストリームを入力として、対応するハンドオブジェクトのインタラクション効果をリアルタイムで生成する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために訓練後のハイブリッドアプローチを活用している。
当社の1.3Bモデルは、18FPS、640x368の解像度でリアルタイムストリーミング生成をサポートし、1つのNVIDIA RTX 5090 GPUでおよそ150ミリ秒のレイテンシと1分以上の連続出力を実現しています。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
関連論文リスト
- Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [15.16063778402193]
Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
論文 参考訳(メタデータ) (2025-08-18T15:28:53Z) - iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer [43.58952721477297]
そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。
具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T13:41:43Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。