論文の概要: InterPose: Learning to Generate Human-Object Interactions from Large-Scale Web Videos
- arxiv url: http://arxiv.org/abs/2509.00767v1
- Date: Sun, 31 Aug 2025 09:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.383678
- Title: InterPose: Learning to Generate Human-Object Interactions from Large-Scale Web Videos
- Title(参考訳): InterPose: 大規模Webビデオから人間とオブジェクトのインタラクションを生成する学習
- Authors: Yangsong Zhang, Abdul Ahad Butt, Gül Varol, Ivan Laptev,
- Abstract要約: 自動動作抽出パイプラインを提案し,それを用いて対話に富んだ人間の動作を収集する。
新しいデータセットInterPoseは、人間の3D動作の73.8Kシーケンスと、人間と物体の相互作用を持つ45.8Kビデオから自動的に得られる対応するテキストキャプションを含んでいる。
- 参考スコア(独自算出の注目度): 35.49253697710172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion generation has shown great advances thanks to the recent diffusion models trained on large-scale motion capture data. Most of existing works, however, currently target animation of isolated people in empty scenes. Meanwhile, synthesizing realistic human-object interactions in complex 3D scenes remains a critical challenge in computer graphics and robotics. One obstacle towards generating versatile high-fidelity human-object interactions is the lack of large-scale datasets with diverse object manipulations. Indeed, existing motion capture data is typically restricted to single people and manipulations of limited sets of objects. To address this issue, we propose an automatic motion extraction pipeline and use it to collect interaction-rich human motions. Our new dataset InterPose contains 73.8K sequences of 3D human motions and corresponding text captions automatically obtained from 45.8K videos with human-object interactions. We perform extensive experiments and demonstrate InterPose to bring significant improvements to state-of-the-art methods for human motion generation. Moreover, using InterPose we develop an LLM-based agent enabling zero-shot animation of people interacting with diverse objects and scenes.
- Abstract(参考訳): 人間のモーション生成は、大規模なモーションキャプチャーデータに基づいて訓練された最近の拡散モデルのおかげで、大きな進歩を見せている。
しかし、現存する作品の多くは、現在、空のシーンで孤立した人々のアニメーションをターゲットとしている。
一方、複雑な3Dシーンにおける現実的な人間と物体の相互作用を合成することは、コンピュータグラフィックスとロボティクスにおいて重要な課題である。
汎用性の高い高忠実な人間とオブジェクトの相互作用を生成するための障害のひとつは、多様なオブジェクト操作を伴う大規模なデータセットが欠如していることである。
実際、既存のモーションキャプチャデータは、通常、単一の人や限られたオブジェクトの操作に限られる。
この問題に対処するために,自動動作抽出パイプラインを提案し,それを用いて対話に富む人間の動作を収集する。
新しいデータセットInterPoseは、人間の3D動作の73.8Kシーケンスと、人間と物体の相互作用を持つ45.8Kビデオから自動的に得られる対応するテキストキャプションを含んでいる。
我々は、人間のモーション生成のための最先端手法に大幅な改善をもたらすために、広範囲な実験を行い、InterPoseを実証する。
さらに、InterPoseを用いて、多様なオブジェクトやシーンと対話する人々のゼロショットアニメーションを可能にするLCMベースのエージェントを開発する。
関連論文リスト
- HUMOTO: A 4D Dataset of Mocap Human Object Interactions [27.573065832588554]
Human Motions with Objects(ヒューマン・モーション・ウィズ・オブジェクト)は、モーション生成、コンピュータビジョン、ロボット工学応用のための人間と物体の相互作用の高忠実なデータセットである。
Humotoは、63の精度でモデル化されたオブジェクトと72の明瞭なパーツとのインタラクションをキャプチャする。
プロのアーティストは、それぞれのシーケンスを厳格に掃除し、検証し、足の滑りや物体の侵入を最小限にする。
論文 参考訳(メタデータ) (2025-04-14T16:59:29Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions [10.364340631868322]
そこで我々は,人間と物体の動的3次元運動を,共通のホーム環境内で捉えるために設計したParaHomeシステムを紹介した。
我々のシステムは70台のRGBカメラとIMUベースのボディスーツやハンドモーションキャプチャーグローブなどのウェアラブルモーションキャプチャー装置を備えた多視点セットアップを備えている。
ParaHomeシステムを利用することで、38人の参加者とともに、207回のキャプチャで486分間のシーケンスを含む、新たな人間とオブジェクトのインタラクションデータセットを収集する。
論文 参考訳(メタデータ) (2024-01-18T18:59:58Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。