論文の概要: Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation
- arxiv url: http://arxiv.org/abs/2603.00144v1
- Date: Tue, 24 Feb 2026 12:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.053937
- Title: Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation
- Title(参考訳): 3次元ヒューマン・ヒューマン・インタラクション・ジェネレーションのためのアンタングル型階層型VAE
- Authors: Zichen Geng, Zeeshan Hayder, Bo Miao, Jian Liu, Wei Liu, Ajmal Mian,
- Abstract要約: 既存の方法は、すべての動き情報を単一の潜在表現に圧縮する。
これはしばしば意味的ミスアライメントや、侵入や接触の欠如など、物理的に不確実な成果物につながる。
本稿では,階層型変分オートエンコーダを用いた構造的かつ制御可能なHHI生成のための潜時拡散法を提案する。
- 参考スコア(独自算出の注目度): 38.96602886701333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic 3D Human-Human Interaction (HHI) requires coherent modeling of the physical plausibility of the agents and their interaction semantics. Existing methods compress all motion information into a single latent representation, limiting their ability to capture fine-grained actions and inter-agent interactions. This often leads to semantic misalignment and physically implausible artifacts, such as penetration or missed contact. We propose Disentangled Hierarchical Variational Autoencoder (DHVAE) based latent diffusion for structured and controllable HHI generation. DHVAE explicitly disentangles the global interaction context and individual motion patterns into a decoupled latent structure by employing a CoTransformer module. To mitigate implausible and physically inconsistent contacts in HHI, we incorporate contrastive learning constraints with our DHVAE to promote a more discriminative and physically plausible latent interaction space. For high-fidelity interaction synthesis, DHVAE employs a DDIM-based diffusion denoising process in the hierarchical latent space, enhanced by a skip-connected AdaLN-Transformer denoiser. Extensive evaluations show that DHVAE achieves superior motion fidelity, text alignment, and physical plausibility with greater computational efficiency.
- Abstract(参考訳): リアルな3Dヒューマン・ヒューマン・インタラクション(HHI)を生成するには、エージェントの物理的妥当性とその相互作用のセマンティクスのコヒーレントなモデリングが必要である。
既存の方法は、すべての動作情報を単一の潜在表現に圧縮し、細かいアクションやエージェント間相互作用をキャプチャする能力を制限する。
これはしばしば意味的ミスアライメントや、侵入や接触の欠如など、物理的に不確実な成果物につながる。
DHVAE(Disentangled Hierarchical Variational Autoencoder)を用いた構造的かつ制御可能なHHI生成のための潜時拡散法を提案する。
DHVAEは、CoTransformerモジュールを用いることで、グローバルな相互作用コンテキストと個々の動きパターンを分離された潜在構造に明示的に分離する。
HHIにおける不明瞭で物理的に一貫性のない接触を緩和するために、我々はDHVAEと対照的な学習制約を組み込んで、より差別的で物理的に妥当な潜在的相互作用空間を促進する。
高忠実な相互作用合成のために、DHVAEはDDIMベースの拡散分解過程を階層的な潜在空間に導入し、スキップ接続されたAdaLN-Transformer denoiserによって強化される。
DHVAEはより優れた動きの忠実度、テキストアライメント、物理的妥当性を実現し、計算効率が向上することを示す。
関連論文リスト
- Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations [63.80827184637476]
D-STAR(D-STAR)は,行動すべき場所から行動すべき場所を乱す階層的な政策である。
広範かつ厳密なシミュレーションを通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-14T14:37:06Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - HOIDiNi: Human-Object Interaction through Diffusion Noise Optimization [16.213743009994236]
テキスト駆動拡散フレームワークHOIDiNiについて述べる。
本研究は,テキストプロンプトのみによって駆動される複雑な制御可能なインタラクションを生成する能力を示す。
論文 参考訳(メタデータ) (2025-06-18T16:54:56Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。
我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。
提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文 参考訳(メタデータ) (2024-11-27T10:13:35Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。