論文の概要: Auto-Regressive Diffusion for Generating 3D Human-Object Interactions
- arxiv url: http://arxiv.org/abs/2503.16801v1
- Date: Fri, 21 Mar 2025 02:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:43.066033
- Title: Auto-Regressive Diffusion for Generating 3D Human-Object Interactions
- Title(参考訳): 三次元物体相互作用生成のための自己回帰拡散
- Authors: Zichen Geng, Zeeshan Hayder, Wei Liu, Ajmal Saeed Mian,
- Abstract要約: HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
- 参考スコア(独自算出の注目度): 5.587507490937267
- License:
- Abstract: Text-driven Human-Object Interaction (Text-to-HOI) generation is an emerging field with applications in animation, video games, virtual reality, and robotics. A key challenge in HOI generation is maintaining interaction consistency in long sequences. Existing Text-to-Motion-based approaches, such as discrete motion tokenization, cannot be directly applied to HOI generation due to limited data in this domain and the complexity of the modality. To address the problem of interaction consistency in long sequences, we propose an autoregressive diffusion model (ARDHOI) that predicts the next continuous token. Specifically, we introduce a Contrastive Variational Autoencoder (cVAE) to learn a physically plausible space of continuous HOI tokens, thereby ensuring that generated human-object motions are realistic and natural. For generating sequences autoregressively, we develop a Mamba-based context encoder to capture and maintain consistent sequential actions. Additionally, we implement an MLP-based denoiser to generate the subsequent token conditioned on the encoded context. Our model has been evaluated on the OMOMO and BEHAVE datasets, where it outperforms existing state-of-the-art methods in terms of both performance and inference speed. This makes ARDHOI a robust and efficient solution for text-driven HOI tasks
- Abstract(参考訳): テキスト駆動型ヒューマンオブジェクトインタラクション(Text-to-HOI)生成は、アニメーション、ビデオゲーム、バーチャルリアリティ、ロボット工学に応用される新興分野である。
HOI生成における重要な課題は、長いシーケンスでの相互作用の一貫性を維持することである。
離散的な動きトークン化のような既存のテキスト対運動に基づくアプローチは、この領域の限られたデータとモダリティの複雑さのためにHOI生成に直接適用することはできない。
長いシーケンスにおける相互作用整合性の問題に対処するため,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
具体的には,連続したHOIトークンの物理的に妥当な空間を学習するために,cVAE(Contrastive Variational Autoencoder)を導入する。
シーケンスを自動回帰的に生成するために,コンテクストエンコーダを開発し,一貫したシーケンシャルアクションをキャプチャし,維持する。
さらに、符号化されたコンテキストに条件付けされた後続のトークンを生成するために、MPPベースのデノイザを実装した。
我々のモデルはOMOMOとBEHAVEのデータセットで評価され、性能と推論速度の両面で既存の最先端手法よりも優れている。
これによってARDHOIはテキスト駆動型HOIタスクの堅牢で効率的なソリューションになる
関連論文リスト
- Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブなダイナミクスのビデオを生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルネットワークと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - UDE: A Unified Driving Engine for Human Motion Generation [16.32286289924454]
UDEは、自然言語またはオーディオシーケンスから人間のモーションシーケンスを生成することができる最初の統合駆動エンジンである。
我々はHumanML3DciteGuo_2022_CVPRとAIST++citeli 2021learnベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-11-29T08:30:52Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - AnimGAN: A Spatiotemporally-Conditioned Generative Adversarial Network
for Character Animation [1.452875650827562]
我々は,意味論とダイナミクスの観点から,与えられたシーケンスに類似したシーケンスを生成する,時間条件付きGANを提案する。
このシステムは、ジェスチャー、表現、アクションの大規模なデータセットに基づいてエンドツーエンドにトレーニングされる。
実験により,従来の条件付きGANと比較して,ユーザの期待に合致する現実的で意味論的に関連するヒューマノイド配列を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-23T07:47:46Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。