論文の概要: Autonomous Character-Scene Interaction Synthesis from Text Instruction
- arxiv url: http://arxiv.org/abs/2410.03187v2
- Date: Tue, 8 Oct 2024 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:04:25.080693
- Title: Autonomous Character-Scene Interaction Synthesis from Text Instruction
- Title(参考訳): テキストインストラクションを用いた自動文字・シーンインタラクション合成
- Authors: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu,
- Abstract要約: そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
- 参考スコア(独自算出の注目度): 45.255215402142596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.
- Abstract(参考訳): 3D環境における人間の動き、特に移動、手洗い、人間と物体の相互作用などの複雑な活動の合成は、ユーザ定義のウェイポイントとステージ遷移に対するかなりの要求を提示する。
これらの要件は現在のモデルに課題をもたらし、単純な人間の入力から文字のアニメーションを自動化する際、顕著なギャップを生じさせる。
本稿では,単一テキスト命令と目標位置から直接多段階シーン認識インタラクション動作を合成するための包括的フレームワークを導入することで,この問題に対処する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
合成された動きが環境内でシームレスに統合されていることを保証するために,まず最初に,目標位置の両方において,局所的な知覚を考慮したシーン表現を提案する。
我々は、フレーム埋め込みと言語入力を統合することにより、生成された動きのコヒーレンスをさらに強化する。
さらに,モデル学習を支援するために,40種類の動作を含む120の屋内シーンに16時間の動作シーケンスを収録し,それぞれに正確な言語記述を付加した包括的モーションキャプチャーデータセットを提案する。
実験により, 環境条件, テキスト条件と密に整合した高品質多段運動の創出に本手法の有効性が示された。
関連論文リスト
- Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。