論文の概要: HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.06553v1
- Date: Mon, 11 Dec 2023 17:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:42:20.429598
- Title: HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using
Diffusion Models
- Title(参考訳): HOI-Diff:拡散モデルを用いた3次元物体相互作用のテキスト駆動合成
- Authors: Xiaogang Peng, Yiming Xie, Zizhao Wu, Varun Jampani, Deqing Sun,
Huaizu Jiang
- Abstract要約: ひとつのモデルではなく,モジュール化された設計を採用して,複雑なタスクをシンプルなサブタスクに分解する,というのが私たちの重要な洞察です。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
- 参考スコア(独自算出の注目度): 45.16955053939174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of generating realistic 3D human-object interactions
(HOIs) driven by textual prompts. Instead of a single model, our key insight is
to take a modular design and decompose the complex task into simpler sub-tasks.
We first develop a dual-branch diffusion model (HOI-DM) to generate both human
and object motions conditioning on the input text, and encourage coherent
motions by a cross-attention communication module between the human and object
motion generation branches. We also develop an affordance prediction diffusion
model (APDM) to predict the contacting area between the human and object during
the interactions driven by the textual prompt. The APDM is independent of the
results by the HOI-DM and thus can correct potential errors by the latter.
Moreover, it stochastically generates the contacting points to diversify the
generated motions. Finally, we incorporate the estimated contacting points into
the classifier-guidance to achieve accurate and close contact between humans
and objects. To train and evaluate our approach, we annotate BEHAVE dataset
with text descriptions. Experimental results demonstrate that our approach is
able to produce realistic HOIs with various interactions and different types of
objects.
- Abstract(参考訳): テキストプロンプトによって駆動される現実的3次元オブジェクトインタラクション(hois)を生成する問題に対処する。
ひとつのモデルではなく、私たちの重要な洞察は、モジュール化された設計を行い、複雑なタスクをよりシンプルなサブタスクに分解することです。
まず,人間と物体の動作をコンディショニングする二重分岐拡散モデル(hoi-dm)を開発し,人間と物体の動作生成枝間の相互接続通信モジュールによるコヒーレント動作を促進する。
また,テキストプロンプトによって駆動される対話中の人間と物体の接触面積を予測するためのアフォーアンス予測拡散モデル(apdm)を開発した。
APDMはHOI-DMの結果とは独立であり、後者によって潜在的なエラーを修正することができる。
さらに、接触点を確率的に生成し、生成された動きを多様化する。
最後に,推定された接触点を分類器ガイドに組み込むことにより,人間と物体の高精度かつ密接な接触を実現する。
このアプローチをトレーニングし、評価するために、テキスト記述でBEHAVEデータセットに注釈を付ける。
実験の結果,様々なインタラクションと異なるタイプのオブジェクトで現実的なhoisを生成できることが実証された。
関連論文リスト
- Controllable Human-Object Interaction Synthesis [81.45852197029363]
本稿では,物体の動きと人体の動きを同時に生成するCHOIS(C Controllable Human-Object Interaction Synthesis)を提案する。
我々は、言語記述、初期オブジェクトと人間の状態、およびスパースオブジェクトのウェイポイントが与えられた条件拡散モデルを使用する。
これらの問題を克服するために、生成した物体の動きと入力対象の経路点との整合性を改善するために、追加の監督としてオブジェクト幾何損失を導入する。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - CG-HOI: Contact-Guided 3D Human-Object Interaction Generation [34.6807482408579]
テキストから動的3次元人-物体相互作用(HOI)を生成する最初の方法であるCG-HOIを提案する。
意味的に豊かな人間の動きは、しばしば孤立して起こるので、人間と物体の両方の動きを相互依存的にモデル化する。
我々は,接触に基づく人間と物体の相互作用が現実的かつ物理的に妥当なシーケンスを生成することを示す。
論文 参考訳(メタデータ) (2023-11-27T18:59:10Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。