Fugu-MT 論文翻訳(概要): Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning

論文の概要: Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning

arxiv url: http://arxiv.org/abs/2303.09410v1
Date: Thu, 16 Mar 2023 15:44:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 14:53:23.435364
Title: Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning
Title（参考訳）: ナレーター:関係推論による人間-シーンインタラクション生成の自然制御に向けて
Authors: Haibiao Xuan, Xiongzheng Li, Jinsong Zhang, Hongwen Zhang, Yebin Liu and Kun Li
Abstract要約: テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
参考スコア（独自算出の注目度）: 34.00107506891627
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Naturally controllable human-scene interaction (HSI) generation has an important role in various fields, such as VR/AR content creation and human-centered AI. However, existing methods are unnatural and unintuitive in their controllability, which heavily limits their application in practice. Therefore, we focus on a challenging task of naturally and controllably generating realistic and diverse HSIs from textual descriptions. From human cognition, the ideal generative model should correctly reason about spatial relationships and interactive actions. To that end, we propose Narrator, a novel relationship reasoning-based generative approach using a conditional variation autoencoder for naturally controllable generation given a 3D scene and a textual description. Also, we model global and local spatial relationships in a 3D scene and a textual description respectively based on the scene graph, and introduce a partlevel action mechanism to represent interactions as atomic body part states. In particular, benefiting from our relationship reasoning, we further propose a simple yet effective multi-human generation strategy, which is the first exploration for controllable multi-human scene interaction generation. Our extensive experiments and perceptual studies show that Narrator can controllably generate diverse interactions and significantly outperform existing works. The code and dataset will be available for research purposes.
Abstract（参考訳）: 自然制御可能なヒューマン・シーン・インタラクション(HSI)生成は、VR/ARコンテンツ作成や人間中心AIなど、さまざまな分野で重要な役割を果たしている。しかし、既存の手法は制御性に不自然な非直感的であり、実際は適用を厳しく制限している。そこで本研究では,テキスト記述から現実的で多様なHSIを自然かつ制御的に生成する課題に焦点を当てる。人間の認知から、理想的な生成モデルは、空間的関係と対話的行動について正しく推論すべきである。そこで我々は,3次元シーンとテキスト記述を与えられた自然制御可能な生成のための条件付き変分オートエンコーダを用いた新しい関係推論に基づく生成手法であるNarratorを提案する。また,3次元シーンとテキスト記述のグローバルな空間関係をシーングラフに基づいてモデル化し,相互作用を原子体部分状態として表現するための部分レベルアクション機構を導入する。特に、関係推論の利点から、制御可能な複数のシーンインタラクション生成のための最初の探索である、シンプルで効果的なマルチヒューマン生成戦略をさらに提案する。我々の広範な実験と知覚研究により、ナレーターは様々な相互作用を制御的に生成し、既存の作品を大幅に上回ることができることが示された。コードとデータセットは研究目的に利用できる。

関連論文リスト

HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T12:08:08Z)
Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。 Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文参考訳（メタデータ） (2025-02-20T18:17:11Z)
ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。 ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文参考訳（メタデータ） (2025-02-14T09:46:43Z)
OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文参考訳（メタデータ） (2024-11-27T10:13:35Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI [38.03745740636854]
PhySceneは、リアルなレイアウト、明瞭なオブジェクト、エンボディエージェントに適したリッチな物理的相互作用によって特徴付けられるインタラクティブな3Dシーンを生成するための方法である。我々はPhySceneがこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に利用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示した。
論文参考訳（メタデータ） (2024-04-15T05:29:23Z)
InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文参考訳（メタデータ） (2024-03-28T17:59:30Z)
LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment [27.38638713080283]
我々は,Scene-Text-to-Motion研究に革命をもたらすために設計された,先駆的なデータセットであるLaserHumanを紹介する。 LaserHumanは、本物の人間の動きを3D環境に含めることで際立っている。本稿では,既存のデータセット上での最先端性能を実現するための多条件拡散モデルを提案する。
論文参考訳（メタデータ） (2024-03-20T05:11:10Z)
Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文参考訳（メタデータ） (2023-12-05T12:03:00Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文参考訳（メタデータ） (2023-02-02T05:21:32Z)
Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文参考訳（メタデータ） (2022-07-26T11:37:44Z)
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文参考訳（メタデータ） (2020-12-05T02:14:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。