論文の概要: DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.08333v1
- Date: Tue, 14 Jan 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:02.371642
- Title: DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models
- Title(参考訳): DAViD:事前学習ビデオ拡散モデルを用いた3次元物体の動的精度のモデル化
- Authors: Hyeonwoo Kim, Sangwon Beak, Hanbyul Joo,
- Abstract要約: 本稿では,合成2Dビデオから3次元ダイナミックアプライアンスを学習する手法を提案する。
具体的には、まず3Dオブジェクトから2D HOIビデオを生成し、次にそれを3Dに持ち上げて4D HOIサンプルを生成するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 9.103840202072336
- License:
- Abstract: Understanding the ability of humans to use objects is crucial for AI to improve daily life. Existing studies for learning such ability focus on human-object patterns (e.g., contact, spatial relation, orientation) in static situations, and learning Human-Object Interaction (HOI) patterns over time (i.e., movement of human and object) is relatively less explored. In this paper, we introduce a novel type of affordance named Dynamic Affordance. For a given input 3D object mesh, we learn dynamic affordance which models the distribution of both (1) human motion and (2) human-guided object pose during interactions. As a core idea, we present a method to learn the 3D dynamic affordance from synthetically generated 2D videos, leveraging a pre-trained video diffusion model. Specifically, we propose a pipeline that first generates 2D HOI videos from the 3D object and then lifts them into 3D to generate 4D HOI samples. Once we generate diverse 4D HOI samples on various target objects, we train our DAViD, where we present a method based on the Low-Rank Adaptation (LoRA) module for pre-trained human motion diffusion model (MDM) and an object pose diffusion model with human pose guidance. Our motion diffusion model is extended for multi-object interactions, demonstrating the advantage of our pipeline with LoRA for combining the concepts of object usage. Through extensive experiments, we demonstrate our DAViD outperforms the baselines in generating human motion with HOIs.
- Abstract(参考訳): 人間がオブジェクトを使用する能力を理解することは、AIが日常生活を改善するために不可欠である。
このような能力を学ぶための既存の研究は、静的な状況における人間オブジェクトパターン(例えば、接触、空間的関係、向き)に焦点をあて、時間とともに人間オブジェクトインタラクション(HOI)パターン(すなわち、人間と物体の動き)を学ぶことは、比較的少ない。
本稿では,Dynamic Affordanceという新しいタイプの価格について紹介する。
与えられた入力3Dオブジェクトメッシュに対して,(1)人間の動きと(2)人間誘導物体の相互作用の双方の分布をモデル化したダイナミックアプライアンスを学習する。
中心となるアイデアとして,事前に学習したビデオ拡散モデルを利用して,合成された2次元ビデオから3次元ダイナミックアベイランスを学習する手法を提案する。
具体的には、まず3Dオブジェクトから2D HOIビデオを生成し、次にそれを3Dに持ち上げて4D HOIサンプルを生成するパイプラインを提案する。
様々な対象物に対して多種多様な4D HOIサンプルを生成すると、DAViDを訓練し、事前訓練された人間の動き拡散モデル(MDM)のためのローランド適応(LoRA)モジュールと、人間のポーズ誘導によるオブジェクトポーズ拡散モデルに基づく手法を提案する。
動作拡散モデルは多目的相互作用のために拡張され, 物体利用の概念を組み合わせるために, LoRA を用いたパイプラインの利点を実証する。
我々のDAViDは、広範囲にわたる実験を通じて、人間の動きをHOIで生成する際のベースラインよりも優れていることを実証する。
関連論文リスト
- HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - WANDR: Intention-guided Human Motion Generation [67.07028110459787]
我々は,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタ(抵抗)を配置する自然な人間の動きを生成するデータ駆動モデルであるWADRを紹介する。
インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。
提案手法を広範に評価し,3次元目標に到達した自然および長期の動作と,見当たらない目標位置を生成できることを実証する。
論文 参考訳(メタデータ) (2024-04-23T10:20:17Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。