Fugu-MT 論文翻訳(概要): Generating Human Motion in 3D Scenes from Text Descriptions

論文の概要: Generating Human Motion in 3D Scenes from Text Descriptions

arxiv url: http://arxiv.org/abs/2405.07784v1
Date: Mon, 13 May 2024 14:30:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 13:25:43.151477
Title: Generating Human Motion in 3D Scenes from Text Descriptions
Title（参考訳）: テキスト記述による3次元シーンにおける人間の動きの生成
Authors: Zhi Cen, Huaijin Pi, Sida Peng, Zehong Shen, Minghui Yang, Shuai Zhu, Hujun Bao, Xiaowei Zhou,
Abstract要約: 本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
参考スコア（独自算出の注目度）: 60.04976442328767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating human motions from textual descriptions has gained growing research interest due to its wide range of applications. However, only a few works consider human-scene interactions together with text conditions, which is crucial for visual and physical realism. This paper focuses on the task of generating human motions in 3D indoor scenes given text descriptions of the human-scene interactions. This task presents challenges due to the multi-modality nature of text, scene, and motion, as well as the need for spatial reasoning. To address these challenges, we propose a new approach that decomposes the complex problem into two more manageable sub-problems: (1) language grounding of the target object and (2) object-centric motion generation. For language grounding of the target object, we leverage the power of large language models. For motion generation, we design an object-centric scene representation for the generative model to focus on the target object, thereby reducing the scene complexity and facilitating the modeling of the relationship between human motions and the object. Experiments demonstrate the better motion quality of our approach compared to baselines and validate our design choices.
Abstract（参考訳）: テキスト記述から人間の動きを生成することは、その幅広い応用から研究の関心が高まっている。しかし、視覚的および身体的リアリズムにとって重要なテキスト条件とともに人間とシーンの相互作用を考える研究はごくわずかである。本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。この課題は、テキスト、シーン、動きの多様性や空間的推論の必要性による課題である。これらの課題に対処するために,複雑な問題を2つのより管理可能なサブプロブレムに分解するアプローチを提案する。対象オブジェクトの言語基盤化には,大規模言語モデルの力を利用する。動作生成のために、生成モデルのためのオブジェクト中心のシーン表現を設計し、対象物に焦点を合わせることにより、シーンの複雑さを低減し、人間の動きとオブジェクトの関係のモデリングを容易にする。実験では、ベースラインと比較して、アプローチの動作品質が向上し、設計上の選択が検証される。

関連論文リスト

InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects [15.92165183796286]
動画像を用いた3次元シーンにおけるテキスト制御によるオブジェクトインタラクション生成の課題を提案する。既存の人間とシーンの相互作用データセットは、不十分な相互作用カテゴリに悩まされる。異なる手関節の接触領域を予測するための手指型手指合せ学習を提案する。
論文参考訳（メタデータ） (2025-09-28T03:29:15Z)
UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。 4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文参考訳（メタデータ） (2024-10-09T17:58:56Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文参考訳（メタデータ） (2023-12-06T21:14:20Z)
AttT2M: Text-Driven Human Motion Generation with Multi-Perspective Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文参考訳（メタデータ） (2023-09-02T02:18:17Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文参考訳（メタデータ） (2022-10-18T10:14:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。