論文の概要: AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion
- arxiv url: http://arxiv.org/abs/2604.17818v1
- Date: Mon, 20 Apr 2026 05:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.704776
- Title: AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion
- Title(参考訳): AnyLift:2D拡散によるインターネットビデオからのモーションレコンストラクションのスケーリング
- Authors: Hongjie Li, Heng Yu, Jiaman Li, Hong-Xing Yu, Ehsan Adeli, C. Karen Liu, Jiajun Wu,
- Abstract要約: インターネットビデオから3次元の人間の動きとHOIを再構成する2次元拡散を利用した2段階フレームワークを提案する。
最初の段階では,インターネットビデオから抽出した2Dキーポイントを利用して,各領域の多視点2Dモーションデータを合成する。
第2段階では、領域固有の合成データに基づいて、カメラ条件のマルチビュー2Dモーション拡散モデルを訓練し、世界空間における3Dモーションと3DHOIを復元する。
- 参考スコア(独自算出の注目度): 41.002383749585924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D human motion and human-object interactions (HOI) from Internet videos is a fundamental step toward building large-scale datasets of human behavior. Existing methods struggle to recover globally consistent 3D motion under dynamic cameras, especially for motion types underrepresented in current motion-capture datasets, and face additional difficulty recovering coherent human-object interactions in 3D. We introduce a two-stage framework leveraging 2D diffusion that reconstructs 3D human motion and HOI from Internet videos. In the first stage, we synthesize multi-view 2D motion data for each domain, leveraging 2D keypoints extracted from Internet videos to incorporate human motions that rarely appear in existing MoCap datasets. In the second stage, a camera-conditioned multi-view 2D motion diffusion model is trained on the domain-specific synthetic data to recover 3D human motion and 3D HOI in the world space. We demonstrate the effectiveness of our method on Internet videos featuring challenging motions such as gymnastics, as well as in-the-wild HOI videos, and show that it outperforms prior work in producing realistic human motion and human-object interaction.
- Abstract(参考訳): インターネットビデオから人間の3D動作と人-物体相互作用(HOI)を再構築することは、人間の行動の大規模データセットを構築するための基本的なステップである。
既存の方法では、ダイナミックカメラの下で、特に現在のモーションキャプチャーデータセットで表現されていないモーションタイプに対して、グローバルに一貫した3Dモーションを回復するのに苦労し、さらに3Dにおける一貫性のある人間と物体の相互作用を取り戻すのに困難に直面している。
インターネットビデオから3次元の人間の動きとHOIを再構成する2次元拡散を利用した2段階フレームワークを提案する。
最初の段階では、インターネットビデオから抽出された2Dキーポイントを利用して、各ドメインの多視点2Dモーションデータを合成し、既存のMoCapデータセットにはほとんど現れない人間のモーションを組み込む。
第2段階では、領域固有の合成データに基づいて、カメラ条件のマルチビュー2Dモーション拡散モデルを訓練し、世界空間における3Dモーションと3DHOIを復元する。
本手法の有効性を,体操などの挑戦的な動きを特徴とするインターネットビデオに示すとともに,現実的な人間の動きや人間と物体の相互作用を創出するための先行作業よりも優れていることを示す。
関連論文リスト
- CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos [34.06338037793912]
CoMoViは、2つのビデオ拡散モデル(VDM)を結合して、単一の拡散認知ループ内で3Dの人の動きとビデオを同期的に生成する、共同生成フレームワークである。
本稿では,事前学習したVDMのパワーを継承する有効な2次元人体動作表現を提案する。
次に,人間の動きと映像生成過程を相互特徴相互作用と3D-2Dクロスアテンションで結合する2分岐拡散モデルを設計する。
論文 参考訳(メタデータ) (2026-01-15T17:52:29Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文 参考訳(メタデータ) (2024-12-17T17:34:52Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。