論文の概要: SceneAdapt: Scene-aware Adaptation of Human Motion Diffusion
- arxiv url: http://arxiv.org/abs/2510.13044v1
- Date: Tue, 14 Oct 2025 23:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.447533
- Title: SceneAdapt: Scene-aware Adaptation of Human Motion Diffusion
- Title(参考訳): シーン適応:人間の動き拡散のシーン認識適応
- Authors: Jungbin Cho, Minsu Kim, Jisoo Kim, Ce Zheng, Laszlo A. Jeni, Ming-Hsuan Yang, Youngjae Yu, Seonjoo Kim,
- Abstract要約: テキスト条件付モーションモデルにシーン認識を注入するフレームワークであるSceneAdaptを紹介する。
主要なアイデアは、2つの異なるデータセットをブリッジするプロキシタスクとして、テキストなしで学習可能なモーションインテリシングを使用することだ。
その結果,SceneAdaptはシーン認識をテキスト・トゥ・モーション・モデルに効果的に注入することがわかった。
- 参考スコア(独自算出の注目度): 74.70024991949269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion is inherently diverse and semantically rich, while also shaped by the surrounding scene. However, existing motion generation approaches address either motion semantics or scene-awareness in isolation, since constructing large-scale datasets with both rich text--motion coverage and precise scene interactions is extremely challenging. In this work, we introduce SceneAdapt, a framework that injects scene awareness into text-conditioned motion models by leveraging disjoint scene--motion and text--motion datasets through two adaptation stages: inbetweening and scene-aware inbetweening. The key idea is to use motion inbetweening, learnable without text, as a proxy task to bridge two distinct datasets and thereby inject scene-awareness to text-to-motion models. In the first stage, we introduce keyframing layers that modulate motion latents for inbetweening while preserving the latent manifold. In the second stage, we add a scene-conditioning layer that injects scene geometry by adaptively querying local context through cross-attention. Experimental results show that SceneAdapt effectively injects scene awareness into text-to-motion models, and we further analyze the mechanisms through which this awareness emerges. Code and models will be released.
- Abstract(参考訳): 人間の動きは本質的に多様性があり、意味的にも豊かである。
しかし、既存の動き生成アプローチは、リッチテキスト-モーションカバレッジと正確なシーンインタラクションの両方で大規模データセットを構築することが極めて難しいため、動きのセマンティクスまたはシーン認識の分離に対処する。
本研究では,シーン認識をテキスト条件付きモーションモデルに注入するフレームワークであるSceneAdaptを紹介する。
キーとなるアイデアは、テキストなしで学習可能なモーションインテンシングをプロキシタスクとして使用して、2つの異なるデータセットをブリッジし、それによってシーン認識をテキスト・トゥ・モーションモデルに注入する、というものだ。
第1段階では、潜伏多様体を保ちながら運動潜伏を変調するキーフレーミング層を導入する。
第2段階では,シーン形状を注入するシーンコンディショニング層を,クロスアテンションを通じて局所的なコンテキストを適応的にクエリすることで追加する。
実験の結果,SceneAdaptはシーン認識をテキスト・ツー・モーション・モデルに効果的に注入し,この認識が出現するメカニズムを更に分析した。
コードとモデルはリリースされる。
関連論文リスト
- SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文 参考訳(メタデータ) (2024-12-20T08:25:15Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer [27.278989809466392]
本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。