論文の概要: Uni-HOI:A Unified framework for Learning the Joint distribution of Text and Human-Object Interaction
- arxiv url: http://arxiv.org/abs/2604.27491v1
- Date: Thu, 30 Apr 2026 06:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.957745
- Title: Uni-HOI:A Unified framework for Learning the Joint distribution of Text and Human-Object Interaction
- Title(参考訳): Uni-HOI:テキストと人-物体の相互作用の共分散学習のための統一フレームワーク
- Authors: Mengfei Zhang, Jinlu Zhang, Zhigang Tu,
- Abstract要約: テキスト,人間の動き,物体の動きの関節分布を学習する統合フレームワークUni-HOIを提案する。
大規模言語モデル (LLM) と2つの運動固有ベクトル量子化変分オートエンコーダ (VQ-VAE) を活用することにより、異種運動データをLLM入力と互換性のあるトークンシーケンスに変換する。
実験により,Uni-HOIは複数のHOI関連タスクにおいて顕著な性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 6.292052507310665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling 4D human-object interaction (HOI) is a compelling challenge in computer vision and an essential technology powering virtual and mixed-reality applications. While existing works have achieved promising results on specific HOI tasks-such as text-conditioned HOI generation and human motion generation from object motion, they typically rely on task-specific architectures and lack a unified framework capable of handling diverse conditional inputs. Building on this, we propose Uni-HOI, a unified framework that learns the joint distribution among text, human motion, and object motion. By leveraging large language models (LLMs) and two motion-specific vector quantized variational autoencoders (VQ-VAEs), we convert heterogeneous motion data into token sequences compatible with LLM inputs, enabling seamless integration and joint modeling of all three modalities. We introduce a two-stage training strategy: the first stage performs multi-task learning on a large-scale HOI dataset to capture the underlying correlations among the three modalities, while the second stage fine-tunes the model on specific tasks to further enhance performance. Extensive experiments demonstrate that Uni-HOI achieves remarkable performances on multiple HOI-related tasks including text-driven HOI generation, object motion-driven human motion generation (optionally with text) and human motion-driven object motion prediction within a unified framework.
- Abstract(参考訳): 4Dヒューマンオブジェクトインタラクション(HOI)のモデリングは、コンピュータビジョンにおいて魅力的な課題であり、仮想および混合現実性アプリケーションを支える重要な技術である。
既存の作業は、テキスト条件のHOI生成やオブジェクトモーションからのヒューマンモーション生成など、特定のHOIタスクに対して有望な結果を得たが、それらは通常、タスク固有のアーキテクチャに依存しており、多様な条件入力を処理できる統一されたフレームワークが欠如している。
そこで本研究では,テキスト,人間の動き,物体の動きの関節分布を学習する統合フレームワークUni-HOIを提案する。
大規模言語モデル (LLMs) と2つの運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を活用することにより、不均一な動きデータをLLM入力と互換性のあるトークンシーケンスに変換し、3つのモードのシームレスな統合と共同モデリングを可能にする。
2段階のトレーニング戦略を導入する。第1段階は大規模HOIデータセット上でマルチタスク学習を行い、第2段階は特定のタスクのモデルを微調整し、パフォーマンスをさらに向上する。
広汎な実験により,Uni-HOIはテキスト駆動型HOI生成,オブジェクトモーション駆動型ヒューマンモーション生成(オプションでテキスト),ヒトモーション駆動型オブジェクトモーション予測などの複数のHOI関連タスクにおいて,統一フレームワーク内での顕著なパフォーマンスを実現している。
関連論文リスト
- Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation [26.16137102387553]
テキスト駆動型3次元人-物体相互作用(HOI)運動生成の課題に対処する。
既存の方法は、主に直接テキスト・ツー・HoIマッピングに依存している。
4つの中核的な洞察に基づく新しいフレームワークMP-HOIを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:04:28Z) - IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation [54.36300724708094]
評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。
動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
論文 参考訳(メタデータ) (2025-12-11T15:16:06Z) - Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts [59.78384600454231]
We present Uni-Inter, a unified framework for human motion generation that support a wide range of interaction scenarios。
Uni-Interは、異種インタラクティブエンティティを共有空間にエンコードするボリューム表現であるUnified Interactive Volume (UIV)を導入している。
論文 参考訳(メタデータ) (2025-11-17T06:32:38Z) - UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning [66.68366281305977]
本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。
既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。
本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:10Z) - COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。