論文の概要: ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping
- arxiv url: http://arxiv.org/abs/2412.16212v1
- Date: Wed, 18 Dec 2024 00:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:55.966239
- Title: ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping
- Title(参考訳): ManiVideo:Dexterous and Generalizable Graspingで手動操作ビデオを生成する
- Authors: Youxin Pang, Ruizhi Shao, Jiajun Zhang, Hanzhang Tu, Yun Liu, Boyao Zhou, Hongwen Zhang, Yebin Liu,
- Abstract要約: ManiVideoは、一貫した時間的コヒーレントな双方向手動操作ビデオを生成する方法である。
MLO構造をUNetに2つの形式で埋め込むことで、デキスタラスハンドオブジェクト操作の3次元一貫性を高めることができる。
複数のデータセットを効果的に統合し、人中心手オブジェクト操作ビデオ生成などの下流タスクをサポートする革新的なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 37.40475678197331
- License:
- Abstract: In this paper, we introduce ManiVideo, a novel method for generating consistent and temporally coherent bimanual hand-object manipulation videos from given motion sequences of hands and objects. The core idea of ManiVideo is the construction of a multi-layer occlusion (MLO) representation that learns 3D occlusion relationships from occlusion-free normal maps and occlusion confidence maps. By embedding the MLO structure into the UNet in two forms, the model enhances the 3D consistency of dexterous hand-object manipulation. To further achieve the generalizable grasping of objects, we integrate Objaverse, a large-scale 3D object dataset, to address the scarcity of video data, thereby facilitating the learning of extensive object consistency. Additionally, we propose an innovative training strategy that effectively integrates multiple datasets, supporting downstream tasks such as human-centric hand-object manipulation video generation. Through extensive experiments, we demonstrate that our approach not only achieves video generation with plausible hand-object interaction and generalizable objects, but also outperforms existing SOTA methods.
- Abstract(参考訳): 本稿では,手や物体の動作シーケンスから一貫した時間的コヒーレントな手動操作ビデオを生成する新しい手法であるManiVideoを紹介する。
ManiVideoの中核となる考え方は、閉塞のない正規写像と閉塞信頼マップから3次元閉塞関係を学習する多層閉塞表現(MLO)の構築である。
MLO構造をUNetに2つの形式で埋め込むことで、デキスタラスハンドオブジェクト操作の3次元一貫性を高めることができる。
大規模3DオブジェクトデータセットであるObjaverseを統合し,映像データの不足に対処し,広範囲なオブジェクト一貫性の学習を容易にする。
さらに,複数のデータセットを効果的に統合し,人中心手オブジェクト操作ビデオ生成などの下流タスクを支援する,革新的なトレーニング戦略を提案する。
広範にわたる実験により,本手法は,手オブジェクト間相互作用や一般化可能なオブジェクトによる映像生成を実現するだけでなく,既存のSOTA手法よりも優れていることを示す。
関連論文リスト
- HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。