Fugu-MT 論文翻訳(概要): SceneMI: Motion In-betweening for Modeling Human-Scene Interactions

論文の概要: SceneMI: Motion In-betweening for Modeling Human-Scene Interactions

arxiv url: http://arxiv.org/abs/2503.16289v1
Date: Thu, 20 Mar 2025 16:15:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.482802
Title: SceneMI: Motion In-betweening for Modeling Human-Scene Interactions
Title（参考訳）: SceneMI:人間とシーンの相互作用をモデル化するための動作間相互作用
Authors: Inwoo Hwang, Bing Zhou, Young Min Kim, Jian Wang, Chuan Guo,
Abstract要約: いくつかの実用アプリケーションをサポートするフレームワークであるSceneMIを紹介する。本稿では,シーン認識におけるSceneMIの有効性と実世界のGIMOデータセットへの一般化について述べる。また,モノクロビデオからのHSI再構成におけるSceneMIの適用性についても紹介する。
参考スコア（独自算出の注目度）: 23.847433647307938
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Modeling human-scene interactions (HSI) is essential for understanding and simulating everyday human behaviors. Recent approaches utilizing generative modeling have made progress in this domain; however, they are limited in controllability and flexibility for real-world applications. To address these challenges, we propose reformulating the HSI modeling problem as Scene-aware Motion In-betweening -- a more tractable and practical task. We introduce SceneMI, a framework that supports several practical applications, including keyframe-guided character animation in 3D scenes and enhancing the motion quality of imperfect HSI data. SceneMI employs dual scene descriptors to comprehensively encode global and local scene context. Furthermore, our framework leverages the inherent denoising nature of diffusion models to generalize on noisy keyframes. Experimental results demonstrate SceneMI's effectiveness in scene-aware keyframe in-betweening and generalization to the real-world GIMO dataset, where motions and scenes are acquired by noisy IMU sensors and smartphones. We further showcase SceneMI's applicability in HSI reconstruction from monocular videos.
Abstract（参考訳）: ヒューマン・シーン・インタラクション(HSI)のモデル化は日常の人間の行動を理解しシミュレーションするために不可欠である。生成モデリングを利用した最近のアプローチはこの領域で進歩しているが、現実のアプリケーションでは制御性や柔軟性に制限がある。これらの課題に対処するため、我々はHSIモデリング問題をScene-aware Motion In-betweeningとして再考することを提案した。 SceneMIは、3Dシーンにおけるキーフレーム誘導文字アニメーションや、不完全なHSIデータの動作品質の向上など、いくつかの実用的アプリケーションをサポートするフレームワークである。 SceneMIは、グローバルなシーンコンテキストとローカルなシーンコンテキストを包括的にエンコードするためにデュアルシーン記述子を使用している。さらに,本フレームワークは,拡散モデルの性質を生かして,ノイズの多いキーフレームを一般化する。実世界のGIMOデータセットにSceneMIが組み合わさって、ノイズの多いIMUセンサやスマートフォンによって動きやシーンが取得される、シーン認識キーフレームにおける有効性を示す実験結果が得られた。さらに,モノクロビデオからのHSI再構成におけるSceneMIの適用性を示す。

関連論文リスト

LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling [33.71658540929536]
LocalDyGSは、任意の視点でマルチビューインプットから動的ビデオをモデル化する新しい手法である。提案手法は, 最先端(SOTA)法と比較して, 各種細粒度データセットと競合する。
論文参考訳（メタデータ） (2025-07-03T06:50:33Z)
UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文参考訳（メタデータ） (2025-03-25T17:59:58Z)
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。 HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文参考訳（メタデータ） (2025-03-21T08:40:35Z)
Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文参考訳（メタデータ） (2024-10-04T06:58:45Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2024-03-26T18:41:07Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文参考訳（メタデータ） (2023-12-05T12:03:00Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文参考訳（メタデータ） (2020-12-05T02:14:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。