論文の概要: DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation
- arxiv url: http://arxiv.org/abs/2604.20841v1
- Date: Wed, 22 Apr 2026 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.277626
- Title: DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation
- Title(参考訳): DeVI: シンセティック・ビデオ・イミテーションによる物理に基づくDexterous Human-Objectインタラクション
- Authors: Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, Hanbyul Joo,
- Abstract要約: 本稿では,テキストコンディショニングされた合成ビデオを活用する新しいフレームワークであるDeVIについて述べる。
高品質な3Dデモに依存する方法とは異なり、DeVIは生成されたビデオのみを必要とするため、多様なオブジェクトやインタラクションタイプをまたいだゼロショットの一般化を可能にする。
- 参考スコア(独自算出の注目度): 24.957267706244235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generative models enable the synthesis of realistic human-object interaction videos across a wide range of scenarios and object categories, including complex dexterous manipulations that are difficult to capture with motion capture systems. While the rich interaction knowledge embedded in these synthetic videos holds strong potential for motion planning in dexterous robotic manipulation, their limited physical fidelity and purely 2D nature make them difficult to use directly as imitation targets in physics-based character control. We present DeVI (Dexterous Video Imitation), a novel framework that leverages text-conditioned synthetic videos to enable physically plausible dexterous agent control for interacting with unseen target objects. To overcome the imprecision of generative 2D cues, we introduce a hybrid tracking reward that integrates 3D human tracking with robust 2D object tracking. Unlike methods relying on high-quality 3D kinematic demonstrations, DeVI requires only the generated video, enabling zero-shot generalization across diverse objects and interaction types. Extensive experiments demonstrate that DeVI outperforms existing approaches that imitate 3D human-object interaction demonstrations, particularly in modeling dexterous hand-object interactions. We further validate the effectiveness of DeVI in multi-object scenes and text-driven action diversity, showcasing the advantage of using video as an HOI-aware motion planner.
- Abstract(参考訳): 映像生成モデルの最近の進歩により、モーションキャプチャシステムではキャプチャが困難である複雑なデキスタラスな操作を含む、幅広いシナリオやオブジェクトカテゴリにわたる現実的な人間とオブジェクトのインタラクションビデオの合成が可能になる。
これらの合成ビデオに埋め込まれたリッチな相互作用の知識は、器用なロボット操作における運動計画の強い可能性を持っているが、その限定された物理的忠実さと純粋に2D的な性質は、物理ベースの文字制御における模倣ターゲットとして直接の使用を困難にしている。
DeVI(Dexterous Video Imitation)は、テキストコンディショニングされた合成ビデオを利用する新しいフレームワークで、物理的に可視なデキスタラスなエージェント制御により、目に見えない対象物との対話を可能にする。
そこで本研究では,3次元人物追跡と頑健な2次元物体追跡を統合したハイブリッドトラッキング報酬を導入する。
高品質な3Dキネマティックなデモンストレーションに依存する方法とは異なり、DeVIは生成されたビデオのみを必要とするため、さまざまなオブジェクトやインタラクションタイプに対してゼロショットの一般化を可能にする。
大規模な実験により、DeVIは3次元の人間と物体の相互作用を模倣する既存のアプローチよりも優れていることが示される。
さらに,多目的シーンにおけるDeVIの有効性を検証し,動画をHOI対応モーションプランナとして活用することの利点を示す。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - InterPose: Learning to Generate Human-Object Interactions from Large-Scale Web Videos [35.49253697710172]
自動動作抽出パイプラインを提案し,それを用いて対話に富んだ人間の動作を収集する。
新しいデータセットInterPoseは、人間の3D動作の73.8Kシーケンスと、人間と物体の相互作用を持つ45.8Kビデオから自動的に得られる対応するテキストキャプションを含んでいる。
論文 参考訳(メタデータ) (2025-08-31T09:38:59Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。