論文の概要: THOR: Text to Human-Object Interaction Diffusion via Relation Intervention
- arxiv url: http://arxiv.org/abs/2403.11208v1
- Date: Sun, 17 Mar 2024 13:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:56:21.659170
- Title: THOR: Text to Human-Object Interaction Diffusion via Relation Intervention
- Title(参考訳): THOR:リレーショナル・インターベンションによる人間と物体の相互作用拡散のテキスト化
- Authors: Qianyang Wu, Ye Shi, Xiaoshui Huang, Jingyi Yu, Lan Xu, Jingya Wang,
- Abstract要約: 我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
- 参考スコア(独自算出の注目度): 51.02435289160616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses new methodologies to deal with the challenging task of generating dynamic Human-Object Interactions from textual descriptions (Text2HOI). While most existing works assume interactions with limited body parts or static objects, our task involves addressing the variation in human motion, the diversity of object shapes, and the semantic vagueness of object motion simultaneously. To tackle this, we propose a novel Text-guided Human-Object Interaction diffusion model with Relation Intervention (THOR). THOR is a cohesive diffusion model equipped with a relation intervention mechanism. In each diffusion step, we initiate text-guided human and object motion and then leverage human-object relations to intervene in object motion. This intervention enhances the spatial-temporal relations between humans and objects, with human-centric interaction representation providing additional guidance for synthesizing consistent motion from text. To achieve more reasonable and realistic results, interaction losses is introduced at different levels of motion granularity. Moreover, we construct Text-BEHAVE, a Text2HOI dataset that seamlessly integrates textual descriptions with the currently largest publicly available 3D HOI dataset. Both quantitative and qualitative experiments demonstrate the effectiveness of our proposed model.
- Abstract(参考訳): 本稿では,テキスト記述(Text2HOI)から動的オブジェクトインタラクションを生成するという課題に対処する新しい手法について述べる。
既存の作業の多くは、限られた身体部分や静的な物体との相互作用を前提としていますが、私たちのタスクは、人間の動きの変化、物体の形状の多様性、物体の動きのセマンティックなあいまいさを同時に解決することにあります。
そこで本研究では,リレーショナル・インターベンション(THOR)を用いたテキスト誘導型ヒューマン・オブジェクト相互作用拡散モデルを提案する。
THORは相関干渉機構を備えた凝集拡散モデルである。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
この介入は、テキストから一貫した動きを合成するための追加のガイダンスを提供する人間中心の相互作用表現によって、人間と物体間の空間的時間的関係を強化する。
より合理的で現実的な結果を得るために、異なる動きの粒度レベルでの相互作用損失が導入された。
さらに、テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを、現在最大規模で公開されている3D HOIデータセットと構築する。
定量的および定性的な実験により,提案モデルの有効性が示された。
関連論文リスト
- InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。
人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。
これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-03-28T17:59:30Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oは,現実的,一方的あるいは一方的な物体相互作用を合成する新しい手法である。
タスクを把握段階とテキストベースのインタラクション段階に分解する。
把握段階では、モデルが手の動きのみを生成するのに対し、手と物の両方のポーズが合成される。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method [63.49140028965778]
本稿では,第1回 Gaze-Guided Hand-Object Interaction データセットである GazeHOI を紹介し,視線誘導ハンドオブジェクトインタラクションを合成するための新しいタスクを提案する。
我々のデータセットであるGazeHOIは、平均時間19.1秒、サブシーケンス812、さまざまなサイズの33のオブジェクトを含む479のシーケンスからなる、視線、手、オブジェクトの相互作用を同時に3Dモデリングする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Controllable Human-Object Interaction Synthesis [81.45852197029363]
本稿では,物体の動きと人体の動きを同時に生成するCHOIS(C Controllable Human-Object Interaction Synthesis)を提案する。
我々は、言語記述、初期オブジェクトと人間の状態、およびスパースオブジェクトのウェイポイントが与えられた条件拡散モデルを使用する。
これらの問題を克服するために、生成した物体の動きと入力対象の経路点との整合性を改善するために、追加の監督としてオブジェクト幾何損失を導入する。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - InterControl: Generate Human Motion Interactions by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。