論文の概要: Controllable Human-Object Interaction Synthesis
- arxiv url: http://arxiv.org/abs/2312.03913v1
- Date: Wed, 6 Dec 2023 21:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:37:51.409339
- Title: Controllable Human-Object Interaction Synthesis
- Title(参考訳): 制御可能な人間-物体相互作用合成
- Authors: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig,
C. Karen Liu
- Abstract要約: 本稿では,物体の動きと人体の動きを同時に生成するCHOIS(C Controllable Human-Object Interaction Synthesis)を提案する。
我々は、言語記述、初期オブジェクトと人間の状態、およびスパースオブジェクトのウェイポイントが与えられた条件拡散モデルを使用する。
これらの問題を克服するために、生成した物体の動きと入力対象の経路点との整合性を改善するために、追加の監督としてオブジェクト幾何損失を導入する。
- 参考スコア(独自算出の注目度): 81.45852197029363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.
- Abstract(参考訳): セマンティック・アウェア、ロングホリゾン、ヒューマン・オブジェクトの相互作用の合成は、現実的な人間の行動をシミュレートするために重要である。
本研究では,3次元シーンにおける言語記述に導かれる物体運動と人間の動きの同期化という課題を解決する。
本稿では,言語記述,初期オブジェクトと人間状態の条件付き拡散モデル,スパースオブジェクトのウェイポイントを用いて,物体の動きと人間の動きを同時に生成する制御可能な人間-物体相互作用合成(CHOIS)を提案する。
言語記述がスタイルと意図を知らせる一方で、waypointsはシーンの動作を接地し、ハイレベルな計画手法を使って効果的に抽出することができる。
拡散モデルの適用は、入力されたウェイポイントに沿った物体の動きを予測できず、正確なハンド・オブジェクトの接触と床に接する適切な接触を必要とする相互作用のリアリズムを保証することができない。
これらの問題を克服するために,生成した物体の動きと入力対象のウェイポイントとのマッチングを改善するため,追加の監督としてオブジェクト幾何損失を導入する。
さらに,訓練された拡散モデルのサンプリング過程において,接触制約を強制するためのガイダンス項を設計する。
関連論文リスト
- HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using
Diffusion Models [45.16955053939174]
ひとつのモデルではなく,モジュール化された設計を採用して,複雑なタスクをシンプルなサブタスクに分解する,というのが私たちの重要な洞察です。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - CG-HOI: Contact-Guided 3D Human-Object Interaction Generation [34.6807482408579]
テキストから動的3次元人-物体相互作用(HOI)を生成する最初の方法であるCG-HOIを提案する。
意味的に豊かな人間の動きは、しばしば孤立して起こるので、人間と物体の両方の動きを相互依存的にモデル化する。
我々は,接触に基づく人間と物体の相互作用が現実的かつ物理的に妥当なシーケンスを生成することを示す。
論文 参考訳(メタデータ) (2023-11-27T18:59:10Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - GRIP: Generating Interaction Poses Using Latent Consistency and Spatial
Cues [60.90013719118856]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。