論文の概要: Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning
- arxiv url: http://arxiv.org/abs/2303.09410v1
- Date: Thu, 16 Mar 2023 15:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:53:23.435364
- Title: Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning
- Title(参考訳): ナレーター:関係推論による人間-シーンインタラクション生成の自然制御に向けて
- Authors: Haibiao Xuan, Xiongzheng Li, Jinsong Zhang, Hongwen Zhang, Yebin Liu
and Kun Li
- Abstract要約: テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。
本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。
我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
- 参考スコア(独自算出の注目度): 34.00107506891627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Naturally controllable human-scene interaction (HSI) generation has an
important role in various fields, such as VR/AR content creation and
human-centered AI. However, existing methods are unnatural and unintuitive in
their controllability, which heavily limits their application in practice.
Therefore, we focus on a challenging task of naturally and controllably
generating realistic and diverse HSIs from textual descriptions. From human
cognition, the ideal generative model should correctly reason about spatial
relationships and interactive actions. To that end, we propose Narrator, a
novel relationship reasoning-based generative approach using a conditional
variation autoencoder for naturally controllable generation given a 3D scene
and a textual description. Also, we model global and local spatial
relationships in a 3D scene and a textual description respectively based on the
scene graph, and introduce a partlevel action mechanism to represent
interactions as atomic body part states. In particular, benefiting from our
relationship reasoning, we further propose a simple yet effective multi-human
generation strategy, which is the first exploration for controllable
multi-human scene interaction generation. Our extensive experiments and
perceptual studies show that Narrator can controllably generate diverse
interactions and significantly outperform existing works. The code and dataset
will be available for research purposes.
- Abstract(参考訳): 自然制御可能なヒューマン・シーン・インタラクション(HSI)生成は、VR/ARコンテンツ作成や人間中心AIなど、さまざまな分野で重要な役割を果たしている。
しかし、既存の手法は制御性に不自然な非直感的であり、実際は適用を厳しく制限している。
そこで本研究では,テキスト記述から現実的で多様なHSIを自然かつ制御的に生成する課題に焦点を当てる。
人間の認知から、理想的な生成モデルは、空間的関係と対話的行動について正しく推論すべきである。
そこで我々は,3次元シーンとテキスト記述を与えられた自然制御可能な生成のための条件付き変分オートエンコーダを用いた新しい関係推論に基づく生成手法であるNarratorを提案する。
また,3次元シーンとテキスト記述のグローバルな空間関係をシーングラフに基づいてモデル化し,相互作用を原子体部分状態として表現するための部分レベルアクション機構を導入する。
特に、関係推論の利点から、制御可能な複数のシーンインタラクション生成のための最初の探索である、シンプルで効果的なマルチヒューマン生成戦略をさらに提案する。
我々の広範な実験と知覚研究により、ナレーターは様々な相互作用を制御的に生成し、既存の作品を大幅に上回ることができることが示された。
コードとデータセットは研究目的に利用できる。
関連論文リスト
- Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文 参考訳(メタデータ) (2025-02-14T09:46:43Z) - ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation [17.438484695828276]
我々は,映像生成とニューラルヒューマンレンダリングを統合することで,ゼロショット4次元人間とシーンのインタラクション合成を可能にする新しいアプローチであるZeroHSIを提案する。
我々の重要な洞察は、最先端のビデオ生成モデルで学んだリッチな動きの先行きを利用して、膨大な量の人間の動きと相互作用を訓練し、異なるレンダリングを使って人間とシーンのインタラクションを再構築することである。
室内および屋外の様々な場面の様々な種類の編集されたデータセットに対して,ZeroHSIの評価を行い,多種多様かつ文脈的に適切なヒューマン・シーンのインタラクションを生成できることを実証した。
論文 参考訳(メタデータ) (2024-12-24T18:55:38Z) - OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。
我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。
提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文 参考訳(メタデータ) (2024-11-27T10:13:35Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。
人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。
これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-03-28T17:59:30Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。