論文の概要: SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control
- arxiv url: http://arxiv.org/abs/2412.15664v1
- Date: Fri, 20 Dec 2024 08:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:58.012741
- Title: SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control
- Title(参考訳): SCENIC: 指示誘導制御によるシーン認識セマンティックナビゲーション
- Authors: Xiaohan Zhang, Sebastian Starke, Vladimir Guzov, Zhensong Zhang, Eduardo Pérez Pellitero, Gerard Pons-Moll,
- Abstract要約: SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
- 参考スコア(独自算出の注目度): 36.22743674288336
- License:
- Abstract: Synthesizing natural human motion that adapts to complex environments while allowing creative control remains a fundamental challenge in motion synthesis. Existing models often fall short, either by assuming flat terrain or lacking the ability to control motion semantics through text. To address these limitations, we introduce SCENIC, a diffusion model designed to generate human motion that adapts to dynamic terrains within virtual scenes while enabling semantic control through natural language. The key technical challenge lies in simultaneously reasoning about complex scene geometry while maintaining text control. This requires understanding both high-level navigation goals and fine-grained environmental constraints. The model must ensure physical plausibility and precise navigation across varied terrain, while also preserving user-specified text control, such as ``carefully stepping over obstacles" or ``walking upstairs like a zombie." Our solution introduces a hierarchical scene reasoning approach. At its core is a novel scene-dependent, goal-centric canonicalization that handles high-level goal constraint, and is complemented by an ego-centric distance field that captures local geometric details. This dual representation enables our model to generate physically plausible motion across diverse 3D scenes. By implementing frame-wise text alignment, our system achieves seamless transitions between different motion styles while maintaining scene constraints. Experiments demonstrate our novel diffusion model generates arbitrarily long human motions that both adapt to complex scenes with varying terrain surfaces and respond to textual prompts. Additionally, we show SCENIC can generalize to four real-scene datasets. Our code, dataset, and models will be released at \url{https://virtualhumans.mpi-inf.mpg.de/scenic/}.
- Abstract(参考訳): 複雑な環境に適応しながら創造的な制御を可能にする自然な人間の動きを合成することは、運動合成の根本的な課題である。
既存のモデルは、平らな地形を仮定するか、テキストを通して動きのセマンティクスを制御する能力の欠如によって、しばしば不足する。
これらの制約に対処するため、SCENICは人間の動きを生成するために設計された拡散モデルであり、仮想空間内の動的地形に適応し、自然言語による意味制御を可能にする。
重要な技術的課題は、テキスト制御を維持しながら複雑なシーンの幾何学を同時に推論することである。
これは、高レベルのナビゲーション目標ときめ細かい環境制約の両方を理解する必要がある。
モデルは、様々な地形を横断する物理的な可視性と正確なナビゲーションを確保するとともに、ユーザの指定したテキストコントロールを保存する必要がある。
私たちのソリューションは階層的なシーン推論アプローチを導入します。
中心となるのは、高レベルなゴール制約を扱うシーン依存のゴール中心の標準化であり、局所的な幾何学的詳細を捉えるエゴ中心距離場によって補完される。
この双対表現により,多種多様な3次元シーンにまたがって,物理的に妥当な動きを生成できる。
フレームワイズテキストアライメントを実装することにより,シーン制約を維持しつつ,異なる動作スタイル間のシームレスな遷移を実現する。
実験により、新しい拡散モデルが任意に長い人間の動きを生成し、地形の異なる複雑なシーンに適応し、テキストのプロンプトに反応することを示した。
さらに、SCENICは4つの実シーンデータセットに一般化可能であることを示す。
私たちのコード、データセット、モデルは、 \url{https://virtual humans.mpi-inf.mpg.de/scenic/}でリリースされます。
関連論文リスト
- PlaMo: Plan and Move in Rich 3D Physical Environments [68.75982381673869]
シーン認識型パスプランナで,ロバストな物理制御系であるPlaMoについて紹介する。
プランナーは、シーンが動きに課す様々な制限を考慮して、一連の動き経路を生成する。
私たちのコントロールポリシーは、計画に忠実なリッチでリアルな物理運動を生成します。
論文 参考訳(メタデータ) (2024-06-26T10:41:07Z) - Physics-based Scene Layout Generation from Human Motion [21.939444709132395]
本研究では、シーンレイアウト生成を同時に最適化し、物理シミュレータで動く人間をシミュレートする物理に基づくアプローチを提案する。
我々は、強化学習を用いて、キャラクタ動作模倣コントローラとシーンレイアウトジェネレータの両方の二重最適化を行う。
提案手法は,SAMPとPROXの動作を用いて評価し,従来のキネマティクス法と比較して,物理的に妥当なシーンレイアウトの再構築を示す。
論文 参考訳(メタデータ) (2024-05-21T02:36:37Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - Synthesizing Physically Plausible Human Motions in 3D Scenes [41.1310197485928]
物理的にシミュレートされたキャラクタが,多様で散らばった,見えない場面で長時間のインタラクションタスクを実行できるフレームワークを提案する。
具体的には、InterConには2つの補完的なポリシーが含まれており、文字が対話状態に入り、去ることができる。
異なる場所でのオブジェクトとのインタラクションを生成するために,3Dシーンの自由空間において文字の動きを保ち続けるために,ポリシーに従う軌道であるNavConをさらに設計する。
論文 参考訳(メタデータ) (2023-08-17T15:17:49Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。