論文の概要: Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction
- arxiv url: http://arxiv.org/abs/2404.00562v2
- Date: Tue, 2 Apr 2024 02:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:00:38.372464
- Title: Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction
- Title(参考訳): Text2HOI:ハンドオブジェクトインタラクションのためのテキスト誘導型3Dモーション生成
- Authors: Junuk Cha, Jihyeon Kim, Jae Shin Yoon, Seungryul Baek,
- Abstract要約: 本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。
接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、手の表面とオブジェクトとの間の接触の確率を生成する。
運動生成のために、トランスフォーマーベースの拡散モデルは、この3Dコンタクトマップを、物理的に可塑性な手オブジェクトの動きを生成するための強力な先行手段として利用する。
- 参考スコア(独自算出の注目度): 8.253265795150401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the first text-guided work for generating the sequence of hand-object interaction in 3D. The main challenge arises from the lack of labeled data where existing ground-truth datasets are nowhere near generalizable in interaction type and object category, which inhibits the modeling of diverse 3D hand-object interaction with the correct physical implication (e.g., contacts and semantics) from text prompts. To address this challenge, we propose to decompose the interaction generation task into two subtasks: hand-object contact generation; and hand-object motion generation. For contact generation, a VAE-based network takes as input a text and an object mesh, and generates the probability of contacts between the surfaces of hands and the object during the interaction. The network learns a variety of local geometry structure of diverse objects that is independent of the objects' category, and thus, it is applicable to general objects. For motion generation, a Transformer-based diffusion model utilizes this 3D contact map as a strong prior for generating physically plausible hand-object motion as a function of text prompts by learning from the augmented labeled dataset; where we annotate text labels from many existing 3D hand and object motion data. Finally, we further introduce a hand refiner module that minimizes the distance between the object surface and hand joints to improve the temporal stability of the object-hand contacts and to suppress the penetration artifacts. In the experiments, we demonstrate that our method can generate more realistic and diverse interactions compared to other baseline methods. We also show that our method is applicable to unseen objects. We will release our model and newly labeled data as a strong foundation for future research. Codes and data are available in: https://github.com/JunukCha/Text2HOI.
- Abstract(参考訳): 本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。
主な課題は、テキストプロンプトからの正しい物理的含意(例えば、連絡先や意味論)と多種多様な3Dハンドオブジェクトの相互作用のモデリングを阻害する、相互作用タイプやオブジェクトカテゴリにおいて、既存の地中真実のデータセットがほとんど一般化できないラベル付きデータがないことである。
この課題に対処するために,インタラクション生成タスクを2つのサブタスクに分解することを提案する。
接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、インタラクション中に手の表面とオブジェクト間の接触の確率を生成する。
ネットワークは、オブジェクトのカテゴリに依存しない多様なオブジェクトの様々な局所幾何学構造を学習し、一般的なオブジェクトに適用できる。
動作生成のために,トランスフォーマーを用いた拡散モデルでは,この3次元接触マップを強力な先行として利用して,拡張ラベル付きデータセットから学習したテキストプロンプトの関数として,物理的に可塑性ハンドオブジェクトの動きを生成する。
最後に, 物体表面と手関節の距離を最小化し, 物体接触の時間的安定性を向上し, 貫通アーティファクトの抑制を図るハンドリファインダモジュールを提案する。
実験では,本手法は,他のベースライン手法と比較して,より現実的で多様な相互作用を生成できることを示した。
また,本手法は未知の物体に適用可能であることを示す。
今後の研究の強力な基盤として、私たちのモデルと、新たにラベル付けされたデータを公開します。
コードとデータは、https://github.com/JunukCha/Text2HOI.comで入手できる。
関連論文リスト
- BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - ContactArt: Learning 3D Interaction Priors for Category-level Articulated Object and Hand Poses Estimation [46.815231896011284]
そこで我々は,手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動の
まず、視覚的遠隔操作を用いてデータセットを収集し、人間のオペレーターが物理的シミュレータ内で直接プレイすることで、調音されたオブジェクトを操作できる。
私たちのシステムでは、人手の動きを記録するためにiPhoneしか必要とせず、簡単にスケールアップでき、データやアノテーションの収集コストを大幅に削減できます。
論文 参考訳(メタデータ) (2023-05-02T17:24:08Z) - HMDO: Markerless Multi-view Hand Manipulation Capture with Deformable
Objects [8.711239906965893]
HMDOは、手と変形可能な物体の対話的な動きを記録する最初のマーカーレス変形可能な相互作用データセットである。
提案手法は,手と変形可能な物体の対話的動きを高品質に再現することができる。
論文 参考訳(メタデータ) (2023-01-18T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。