論文の概要: Learning to Generate Human-Human-Object Interactions from Textual Descriptions
- arxiv url: http://arxiv.org/abs/2511.20446v1
- Date: Tue, 25 Nov 2025 16:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.542373
- Title: Learning to Generate Human-Human-Object Interactions from Textual Descriptions
- Title(参考訳): テキスト記述から人間-人間-物体インタラクションを生成する学習
- Authors: Jeonghyeon Na, Sangwon Baik, Inhee Lee, Junyoung Lee, Hanbyul Joo,
- Abstract要約: 本研究では,オブジェクトを含む共有インタラクションに携わる2人の関係をモデル化するための新しい研究課題を提案する。
我々はこの定式化をHHOI(Human-Human-Object Interactions)と呼ぶ。
本稿では,新たに取得したHHOIデータセットと,画像生成モデルを利用してHHOIデータを合成する方法を提案する。
- 参考スコア(独自算出の注目度): 15.38195247862565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The way humans interact with each other, including interpersonal distances, spatial configuration, and motion, varies significantly across different situations. To enable machines to understand such complex, context-dependent behaviors, it is essential to model multiple people in relation to the surrounding scene context. In this paper, we present a novel research problem to model the correlations between two people engaged in a shared interaction involving an object. We refer to this formulation as Human-Human-Object Interactions (HHOIs). To overcome the lack of dedicated datasets for HHOIs, we present a newly captured HHOIs dataset and a method to synthesize HHOI data by leveraging image generative models. As an intermediary, we obtain individual human-object interaction (HOIs) and human-human interaction (HHIs) from the HHOIs, and with these data, we train an text-to-HOI and text-to-HHI model using score-based diffusion model. Finally, we present a unified generative framework that integrates the two individual model, capable of synthesizing complete HHOIs in a single advanced sampling process. Our method extends HHOI generation to multi-human settings, enabling interactions involving more than two individuals. Experimental results show that our method generates realistic HHOIs conditioned on textual descriptions, outperforming previous approaches that focus only on single-human HOIs. Furthermore, we introduce multi-human motion generation involving objects as an application of our framework.
- Abstract(参考訳): 対人距離、空間構成、動きなど、人間同士の相互作用の仕方は、状況によって大きく異なる。
このような複雑でコンテキストに依存した振る舞いを機械が理解できるようにするためには、周囲のシーンコンテキストに関連して複数の人物をモデル化することが不可欠である。
本稿では,オブジェクトを介する共有インタラクションに携わる2人の関係をモデル化するための新しい研究課題を提案する。
この定式化をHHOI(Human-Human-Object Interactions)と呼ぶ。
HHOIs専用データセットの欠如を克服するため,新たに取得したHHOIsデータセットと,画像生成モデルを利用してHHOIデータを合成する方法を提案する。
仲介者として,HHOIから個人オブジェクト間相互作用(HOI)と人間オブジェクト間相互作用(HHI)を取得し,これらのデータを用いて,スコアベース拡散モデルを用いてテキスト-to-HOIとテキスト-to-HHIモデルを訓練する。
最後に, 完全HHOIを1つの高度サンプリングプロセスで合成可能な2つの個別モデルを統合する統合生成フレームワークを提案する。
提案手法は,HHOI生成を多人数設定に拡張し,2人以上の個人との対話を可能にする。
実験結果から,本手法はテキスト記述に基づく現実的なHHOIを生成できることがわかった。
さらに,本フレームワークの応用として,物体を含むマルチヒューマンモーション生成を導入する。
関連論文リスト
- HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。