論文の概要: Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method
- arxiv url: http://arxiv.org/abs/2403.16169v3
- Date: Thu, 28 Mar 2024 06:56:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 10:59:24.961555
- Title: Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method
- Title(参考訳): 注視誘導型手動物体相互作用合成 : ベンチマークと方法
- Authors: Jie Tian, Lingxiao Yang, Ran Ji, Yuexin Ma, Lan Xu, Jingyi Yu, Ye Shi, Jingya Wang,
- Abstract要約: 本稿では,第1回 Gaze-Guided Hand-Object Interaction データセットである GazeHOI を紹介し,視線誘導ハンドオブジェクトインタラクションを合成するための新しいタスクを提案する。
我々のデータセットであるGazeHOIは、平均時間19.1秒、サブシーケンス812、さまざまなサイズの33のオブジェクトを含む479のシーケンスからなる、視線、手、オブジェクトの相互作用を同時に3Dモデリングする。
- 参考スコア(独自算出の注目度): 63.49140028965778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze plays a crucial role in revealing human attention and intention, shedding light on the cognitive processes behind human actions. The integration of gaze guidance with the dynamics of hand-object interactions boosts the accuracy of human motion prediction. However, the lack of datasets that capture the intricate relationship and consistency among gaze, hand, and object movements remains a substantial hurdle. In this paper, we introduce the first Gaze-guided Hand-Object Interaction dataset, GazeHOI, and present a novel task for synthesizing gaze-guided hand-object interactions. Our dataset, GazeHOI, features simultaneous 3D modeling of gaze, hand, and object interactions, comprising 479 sequences with an average duration of 19.1 seconds, 812 sub-sequences, and 33 objects of various sizes. We propose a hierarchical framework centered on a gaze-guided hand-object interaction diffusion model, named GHO-Diffusion. In the pre-diffusion phase, we separate gaze conditions into spatial-temporal features and goal pose conditions at different levels of information granularity. During the diffusion phase, two gaze-conditioned diffusion models are stacked to simplify the complex synthesis of hand-object motions. Here, the object motion diffusion model generates sequences of object motions based on gaze conditions, while the hand motion diffusion model produces hand motions based on the generated object motion. To improve fine-grained goal pose alignment, we introduce a Spherical Gaussian constraint to guide the denoising step. In the subsequent post-diffusion phase, we optimize the generated hand motions using contact consistency. Our extensive experiments highlight the uniqueness of our dataset and the effectiveness of our approach.
- Abstract(参考訳): 迷路は人間の注意と意図を明らかにする上で重要な役割を担い、人間の行動の背後にある認知過程に光を当てる。
視線誘導と手動物体相互作用のダイナミクスを統合することにより、人間の動作予測の精度が向上する。
しかし、視線、手、物体の動きの間の複雑な関係と一貫性を捉えるデータセットの欠如は、依然としてかなりのハードルとなっている。
本稿では,第1回 Gaze-Guided Hand-Object Interaction データセットである GazeHOI について紹介する。
我々のデータセットであるGazeHOIは、平均時間19.1秒、サブシーケンス812、さまざまなサイズの33のオブジェクトを含む479のシーケンスからなる、視線、手、オブジェクトの相互作用を同時に3Dモデリングする。
本稿では,GHO拡散(GHO-Diffusion)という,視線誘導型手オブジェクト相互作用拡散モデルを中心とした階層型フレームワークを提案する。
拡散前段階では、視線条件を空間的時間的特徴に分離し、目標が情報粒度の異なるレベルに提示する。
拡散相の間、2つの視線条件付き拡散モデルが積み重なり、手対象運動の複雑な合成を単純化する。
ここでは、物体の動き拡散モデルが視線条件に基づいて物体の動きのシーケンスを生成し、手の動き拡散モデルが生成された物体の動きに基づいて手の動きを生成する。
細粒度のゴールポーズアライメントを改善するために,デノナイジングステップを導く球状ガウス制約を導入する。
その後の拡散段階において,接触整合性を用いて生成された手の動きを最適化する。
我々の広範な実験は、我々のデータセットのユニークさと、我々のアプローチの有効性を強調している。
関連論文リスト
- DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oは,現実的,一方的あるいは一方的な物体相互作用を合成する新しい手法である。
タスクを把握段階とテキストベースのインタラクション段階に分解する。
把握段階では、モデルが手の動きのみを生成するのに対し、手と物の両方のポーズが合成される。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [60.21472701182632]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Hand-Centric Motion Refinement for 3D Hand-Object Interaction via
Hierarchical Spatial-Temporal Modeling [18.128376292350836]
粗い手の動き改善のためのデータ駆動方式を提案する。
まず,手と物体の動的空間的関係を記述するために,手中心の表現を設計する。
第2に,手動物体相互作用の動的手がかりを捉えるために,新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-29T09:17:51Z) - Controllable Human-Object Interaction Synthesis [81.45852197029363]
本稿では,物体の動きと人体の動きを同時に生成するCHOIS(C Controllable Human-Object Interaction Synthesis)を提案する。
我々は、言語記述、初期オブジェクトと人間の状態、およびスパースオブジェクトのウェイポイントが与えられた条件拡散モデルを使用する。
これらの問題を克服するために、生成した物体の動きと入力対象の経路点との整合性を改善するために、追加の監督としてオブジェクト幾何損失を導入する。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - GRIP: Generating Interaction Poses Using Latent Consistency and Spatial
Cues [60.90013719118856]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。