論文の概要: SceneMI: Motion In-betweening for Modeling Human-Scene Interactions
- arxiv url: http://arxiv.org/abs/2503.16289v1
- Date: Thu, 20 Mar 2025 16:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:45.703482
- Title: SceneMI: Motion In-betweening for Modeling Human-Scene Interactions
- Title(参考訳): SceneMI:人間とシーンの相互作用をモデル化するための動作間相互作用
- Authors: Inwoo Hwang, Bing Zhou, Young Min Kim, Jian Wang, Chuan Guo,
- Abstract要約: いくつかの実用アプリケーションをサポートするフレームワークであるSceneMIを紹介する。
本稿では,シーン認識におけるSceneMIの有効性と実世界のGIMOデータセットへの一般化について述べる。
また,モノクロビデオからのHSI再構成におけるSceneMIの適用性についても紹介する。
- 参考スコア(独自算出の注目度): 23.847433647307938
- License:
- Abstract: Modeling human-scene interactions (HSI) is essential for understanding and simulating everyday human behaviors. Recent approaches utilizing generative modeling have made progress in this domain; however, they are limited in controllability and flexibility for real-world applications. To address these challenges, we propose reformulating the HSI modeling problem as Scene-aware Motion In-betweening -- a more tractable and practical task. We introduce SceneMI, a framework that supports several practical applications, including keyframe-guided character animation in 3D scenes and enhancing the motion quality of imperfect HSI data. SceneMI employs dual scene descriptors to comprehensively encode global and local scene context. Furthermore, our framework leverages the inherent denoising nature of diffusion models to generalize on noisy keyframes. Experimental results demonstrate SceneMI's effectiveness in scene-aware keyframe in-betweening and generalization to the real-world GIMO dataset, where motions and scenes are acquired by noisy IMU sensors and smartphones. We further showcase SceneMI's applicability in HSI reconstruction from monocular videos.
- Abstract(参考訳): ヒューマン・シーン・インタラクション(HSI)のモデル化は日常の人間の行動を理解しシミュレーションするために不可欠である。
生成モデリングを利用した最近のアプローチはこの領域で進歩しているが、現実のアプリケーションでは制御性や柔軟性に制限がある。
これらの課題に対処するため、我々はHSIモデリング問題をScene-aware Motion In-betweeningとして再考することを提案した。
SceneMIは、3Dシーンにおけるキーフレーム誘導文字アニメーションや、不完全なHSIデータの動作品質の向上など、いくつかの実用的アプリケーションをサポートするフレームワークである。
SceneMIは、グローバルなシーンコンテキストとローカルなシーンコンテキストを包括的にエンコードするためにデュアルシーン記述子を使用している。
さらに,本フレームワークは,拡散モデルの性質を生かして,ノイズの多いキーフレームを一般化する。
実世界のGIMOデータセットにSceneMIが組み合わさって、ノイズの多いIMUセンサやスマートフォンによって動きやシーンが取得される、シーン認識キーフレームにおける有効性を示す実験結果が得られた。
さらに,モノクロビデオからのHSI再構成におけるSceneMIの適用性を示す。
関連論文リスト
- Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文 参考訳(メタデータ) (2024-10-04T06:58:45Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI [38.03745740636854]
PhySceneは、リアルなレイアウト、明瞭なオブジェクト、エンボディエージェントに適したリッチな物理的相互作用によって特徴付けられるインタラクティブな3Dシーンを生成するための方法である。
我々はPhySceneがこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に利用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2024-04-15T05:29:23Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。