論文の概要: DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions
- arxiv url: http://arxiv.org/abs/2403.17827v2
- Date: Mon, 23 Dec 2024 17:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:57.623446
- Title: DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions
- Title(参考訳): DiffH2O: テキスト記述による手動物体間相互作用の拡散に基づく合成
- Authors: Sammy Christen, Shreyas Hampali, Fadime Sener, Edoardo Remelli, Tomas Hodan, Eric Sauser, Shugao Ma, Bugra Tekin,
- Abstract要約: DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
- 参考スコア(独自算出の注目度): 15.417836855005087
- License:
- Abstract: Generating natural hand-object interactions in 3D is challenging as the resulting hand and object motions are expected to be physically plausible and semantically meaningful. Furthermore, generalization to unseen objects is hindered by the limited scale of available hand-object interaction datasets. In this paper, we propose a novel method, dubbed DiffH2O, which can synthesize realistic, one or two-handed object interactions from provided text prompts and geometry of the object. The method introduces three techniques that enable effective learning from limited data. First, we decompose the task into a grasping stage and an text-based manipulation stage and use separate diffusion models for each. In the grasping stage, the model only generates hand motions, whereas in the manipulation phase both hand and object poses are synthesized. Second, we propose a compact representation that tightly couples hand and object poses and helps in generating realistic hand-object interactions. Third, we propose two different guidance schemes to allow more control of the generated motions: grasp guidance and detailed textual guidance. Grasp guidance takes a single target grasping pose and guides the diffusion model to reach this grasp at the end of the grasping stage, which provides control over the grasping pose. Given a grasping motion from this stage, multiple different actions can be prompted in the manipulation phase. For the textual guidance, we contribute comprehensive text descriptions to the GRAB dataset and show that they enable our method to have more fine-grained control over hand-object interactions. Our quantitative and qualitative evaluation demonstrates that the proposed method outperforms baseline methods and leads to natural hand-object motions.
- Abstract(参考訳): 3次元における自然な手-物体相互作用の生成は、結果として得られる手と物体の動きが物理的に妥当で意味のあるものになると期待されているため、困難である。
さらに、見えないオブジェクトへの一般化は、利用可能な手動オブジェクトの相互作用データセットの限られたスケールによって妨げられる。
本稿では,提案手法であるDiffH2Oを提案する。本手法は,提案するテキストプロンプトとオブジェクトの幾何から,現実的,片手,片手,片手,片手のオブジェクトインタラクションを合成する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
まず、タスクを把握段階とテキストベースの操作段階に分解し、それぞれに別々の拡散モデルを使用する。
把握段階では、モデルが手の動きのみを生成するのに対し、操作段階では手と物の両方のポーズが合成される。
第2に、手とオブジェクトを強く結合したコンパクトな表現を提案し、現実的な手と物体の相互作用を生成するのに役立ちます。
第3に、生成した動きをより制御するための2つの異なるガイダンススキームを提案し、ガイダンスの把握と詳細なテキストガイダンスを提案する。
グラスプ誘導は、単一の目標把握ポーズを採り、拡散モデルを誘導し、把握ステージの最後にこのグリップに到達する。
この段階からの握り動作が与えられた場合、操作段階で複数の異なる動作を誘発することができる。
テキストガイダンスでは,GRABデータセットに包括的テキスト記述をコントリビュートし,手動オブジェクト間のインタラクションをよりきめ細かい制御が可能となることを示す。
定量的および定性的な評価は,提案手法がベースライン法より優れ,自然な手対象運動につながることを示す。
関連論文リスト
- ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [63.49140028965778]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Hand-Centric Motion Refinement for 3D Hand-Object Interaction via
Hierarchical Spatial-Temporal Modeling [18.128376292350836]
粗い手の動き改善のためのデータ駆動方式を提案する。
まず,手と物体の動的空間的関係を記述するために,手中心の表現を設計する。
第2に,手動物体相互作用の動的手がかりを捉えるために,新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-29T09:17:51Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Novel-view Synthesis and Pose Estimation for Hand-Object Interaction
from Sparse Views [41.50710846018882]
スパースビューから手動物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案する。
まず,手や物体の形状や外観を,神経表現と別々に学習する。
オンライン段階では、動的手-物体相互作用を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-22T05:17:41Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。