論文の概要: TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions
- arxiv url: http://arxiv.org/abs/2412.06334v1
- Date: Mon, 09 Dec 2024 09:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:35.259836
- Title: TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions
- Title(参考訳): TriDi:3次元人・物・相互作用の3方向拡散
- Authors: Ilya A. Petrov, Riccardo Marin, Julian Chibane, Gerard Pons-Moll,
- Abstract要約: 本稿では,3次元オブジェクト間相互作用(HOI)をモデル化するための最初の統一モデルを提案する。
我々は,新しい3方向拡散プロセスと同時に,人・物・相互作用のモダリティを生成する。
本稿では,TriDiをシーン群に適用し,人間と接触したデータセットのオブジェクトを生成し,オブジェクトの幾何学を一般化する。
- 参考スコア(独自算出の注目度): 33.58559068016724
- License:
- Abstract: Modeling 3D human-object interaction (HOI) is a problem of great interest for computer vision and a key enabler for virtual and mixed-reality applications. Existing methods work in a one-way direction: some recover plausible human interactions conditioned on a 3D object; others recover the object pose conditioned on a human pose. Instead, we provide the first unified model - TriDi which works in any direction. Concretely, we generate Human, Object, and Interaction modalities simultaneously with a new three-way diffusion process, allowing to model seven distributions with one network. We implement TriDi as a transformer attending to the various modalities' tokens, thereby discovering conditional relations between them. The user can control the interaction either as a text description of HOI or a contact map. We embed these two representations into a shared latent space, combining the practicality of text descriptions with the expressiveness of contact maps. Using a single network, TriDi unifies all the special cases of prior work and extends to new ones, modeling a family of seven distributions. Remarkably, despite using a single model, TriDi generated samples surpass one-way specialized baselines on GRAB and BEHAVE in terms of both qualitative and quantitative metrics, and demonstrating better diversity. We show the applicability of TriDi to scene population, generating objects for human-contact datasets, and generalization to unseen object geometry. The project page is available at: https://virtualhumans.mpi-inf.mpg.de/tridi.
- Abstract(参考訳): 3Dヒューマンオブジェクトインタラクション(HOI)のモデリングは、コンピュータビジョンにとって大きな関心を持つ問題であり、仮想および混合現実性アプリケーションのための重要なイネーブラーである。
既存の方法は片方向で機能する: 一部は3Dオブジェクトに条件付けされた可愛らしい人間のインタラクションを回復し、他は人間のポーズに条件付けされたオブジェクトのポーズを回復する。
代わりに、あらゆる方向に機能する最初の統一モデル、TriDiを提供しています。
具体的には、新しい3方向拡散プロセスと同時に人・物・相互作用のモダリティを生成し、一つのネットワークで7つの分布をモデル化する。
我々はTriDiを様々なモダリティのトークンに対応する変換器として実装し、それらの間の条件関係を発見する。
ユーザは、HOIのテキスト記述またはコンタクトマップとして、インタラクションを制御することができる。
これら2つの表現を共有潜在空間に埋め込み、テキスト記述の実用性とコンタクトマップの表現性を組み合わせる。
単一のネットワークを使用して、TriDiは以前の作業の特別なケースをすべて統一し、新しいものへと拡張し、7つのディストリビューションのファミリーをモデル化する。
注目すべきは、TriDiが生成したサンプルは、1つのモデルを使っているにもかかわらず、質的および定量的な指標の両方の観点から、GRABとBEHAVEの一方的な専門的ベースラインを超越し、より良い多様性を示すことである。
本稿では,TriDiをシーン群に適用し,人間と接触したデータセットのオブジェクトを生成し,オブジェクトの幾何学を一般化する。
プロジェクトページは、https://virtual humans.mpi-inf.mpg.de/tridi.comで公開されている。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。