論文の概要: Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization
- arxiv url: http://arxiv.org/abs/2606.02000v1
- Date: Mon, 01 Jun 2026 09:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.773353
- Title: Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization
- Title(参考訳): 3次元映像拡散モデルに向けて:メッシュトークン化によるレンダーフリーヒューマンモーションコントロール
- Authors: Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang,
- Abstract要約: 圧縮された3次元メッシュトークン上で直接ビデオ生成を行うレンダリングフリーフレームワークを提案する。
この表現は、統一されたトークンベースの生成パイプラインを可能にしながら、完全な3D幾何情報を保存する。
実験の結果,人間の動作制御ベンチマークにおいて,ビュー依存の2D誘導や軌道上のミスマッチによって誘導されるアーティファクトを低減しつつ,強い性能を示した。
- 参考スコア(独自算出の注目度): 41.562044736774816
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have shown remarkable success in video generation. However, whether such models are truly aware of the 3D structure underlying visual observations, rather than simply reproducing plausible 2D projections, remains an open question. In this work, we investigate this question through human motion control, a task that requires precise modelling of 3D human geometry, motion, camera viewpoint, and scene context. Unlike prior methods that rely on rendered 2D motion guidance videos, we propose a render-free framework that conditions video generation directly on compressed 3D human mesh tokens. This representation preserves full 3D geometric information while enabling a unified token-based generation pipeline that processes video tokens jointly with motion tokens in a DiT-based architecture. This design requires the model to reason jointly about appearance, 3D structure, and camera viewpoint during video generation. Experimental results demonstrate strong performance on human motion control benchmarks, while reducing artifacts induced by view-dependent 2D guidance and trajectory-pose mismatches during editing. These findings suggest that video diffusion models, when equipped with mesh tokenization, can better capture complex 3D human structures and their interactions with the surrounding environment.
- Abstract(参考訳): 拡散モデルはビデオ生成において顕著な成功を収めている。
しかし、そのようなモデルが単に可視な2次元投影を再現するのではなく、視覚的観察の基盤となる3次元構造を真に認識しているかどうかは未解決のままである。
本研究では, 人間の3次元形状, 動き, カメラ視点, シーンコンテキストを正確にモデル化する作業である, 人間の動作制御を通して, この課題を考察する。
レンダリングされた2Dモーションガイダンスビデオに依存する従来の手法とは違って、圧縮された3Dメッシュトークンに直接ビデオを生成するレンダリングフリーなフレームワークを提案する。
この表現は、DiTベースのアーキテクチャでモーショントークンと共同でビデオトークンを処理する統一トークンベースの生成パイプラインを可能にしながら、完全な3D幾何学情報を保存する。
この設計では、ビデオ生成中に外見、立体構造、カメラ視点を共同で考える必要がある。
実験の結果,人間の動作制御ベンチマークにおいて,ビュー依存の2D誘導や軌道上のミスマッチによって誘導されるアーティファクトを低減しつつ,強い性能を示すことができた。
これらの結果から,メッシュトークン化を応用した映像拡散モデルにより,複雑な3次元人体構造と周囲環境との相互作用をよりよく捉えることが可能であることが示唆された。
関連論文リスト
- Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。
提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-08-29T10:39:06Z) - Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos [71.24593306228145]
本研究では,2次元モデルから層状放射場への運動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。
テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。
このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
論文 参考訳(メタデータ) (2025-06-05T19:46:48Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [54.559847511280545]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。