論文の概要: Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning
- arxiv url: http://arxiv.org/abs/2303.09410v1
- Date: Thu, 16 Mar 2023 15:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:53:23.435364
- Title: Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning
- Title(参考訳): ナレーター:関係推論による人間-シーンインタラクション生成の自然制御に向けて
- Authors: Haibiao Xuan, Xiongzheng Li, Jinsong Zhang, Hongwen Zhang, Yebin Liu
and Kun Li
- Abstract要約: テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。
本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。
我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
- 参考スコア(独自算出の注目度): 34.00107506891627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Naturally controllable human-scene interaction (HSI) generation has an
important role in various fields, such as VR/AR content creation and
human-centered AI. However, existing methods are unnatural and unintuitive in
their controllability, which heavily limits their application in practice.
Therefore, we focus on a challenging task of naturally and controllably
generating realistic and diverse HSIs from textual descriptions. From human
cognition, the ideal generative model should correctly reason about spatial
relationships and interactive actions. To that end, we propose Narrator, a
novel relationship reasoning-based generative approach using a conditional
variation autoencoder for naturally controllable generation given a 3D scene
and a textual description. Also, we model global and local spatial
relationships in a 3D scene and a textual description respectively based on the
scene graph, and introduce a partlevel action mechanism to represent
interactions as atomic body part states. In particular, benefiting from our
relationship reasoning, we further propose a simple yet effective multi-human
generation strategy, which is the first exploration for controllable
multi-human scene interaction generation. Our extensive experiments and
perceptual studies show that Narrator can controllably generate diverse
interactions and significantly outperform existing works. The code and dataset
will be available for research purposes.
- Abstract(参考訳): 自然制御可能なヒューマン・シーン・インタラクション(HSI)生成は、VR/ARコンテンツ作成や人間中心AIなど、さまざまな分野で重要な役割を果たしている。
しかし、既存の手法は制御性に不自然な非直感的であり、実際は適用を厳しく制限している。
そこで本研究では,テキスト記述から現実的で多様なHSIを自然かつ制御的に生成する課題に焦点を当てる。
人間の認知から、理想的な生成モデルは、空間的関係と対話的行動について正しく推論すべきである。
そこで我々は,3次元シーンとテキスト記述を与えられた自然制御可能な生成のための条件付き変分オートエンコーダを用いた新しい関係推論に基づく生成手法であるNarratorを提案する。
また,3次元シーンとテキスト記述のグローバルな空間関係をシーングラフに基づいてモデル化し,相互作用を原子体部分状態として表現するための部分レベルアクション機構を導入する。
特に、関係推論の利点から、制御可能な複数のシーンインタラクション生成のための最初の探索である、シンプルで効果的なマルチヒューマン生成戦略をさらに提案する。
我々の広範な実験と知覚研究により、ナレーターは様々な相互作用を制御的に生成し、既存の作品を大幅に上回ることができることが示された。
コードとデータセットは研究目的に利用できる。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI [38.03745740636854]
PhySceneは、リアルなレイアウト、明瞭なオブジェクト、エンボディエージェントに適したリッチな物理的相互作用によって特徴付けられるインタラクティブな3Dシーンを生成するための方法である。
我々はPhySceneがこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に利用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2024-04-15T05:29:23Z) - InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。
人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。
これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-03-28T17:59:30Z) - LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment [27.38638713080283]
我々は,Scene-Text-to-Motion研究に革命をもたらすために設計された,先駆的なデータセットであるLaserHumanを紹介する。
LaserHumanは、本物の人間の動きを3D環境に含めることで際立っている。
本稿では,既存のデータセット上での最先端性能を実現するための多条件拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-03-20T05:11:10Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。