論文の概要: DIMO: Diverse 3D Motion Generation for Arbitrary Objects
- arxiv url: http://arxiv.org/abs/2511.07409v1
- Date: Mon, 10 Nov 2025 18:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.428988
- Title: DIMO: Diverse 3D Motion Generation for Arbitrary Objects
- Title(参考訳): DIMO: 任意物体のための横3次元運動生成
- Authors: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis,
- Abstract要約: DIMOは、単一の画像から任意のオブジェクトに対して多様な3Dモーションを生成することができる生成的アプローチである。
我々は、よく訓練されたビデオモデルにおけるリッチな事前情報を利用して、共通の動きパターンを抽出する。
学習した潜時空間での推論時間の間、単方向パスで様々な3次元運動を瞬時にサンプリングすることができる。
- 参考スコア(独自算出の注目度): 57.14954351767432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DIMO, a generative approach capable of generating diverse 3D motions for arbitrary objects from a single image. The core idea of our work is to leverage the rich priors in well-trained video models to extract the common motion patterns and then embed them into a shared low-dimensional latent space. Specifically, we first generate multiple videos of the same object with diverse motions. We then embed each motion into a latent vector and train a shared motion decoder to learn the distribution of motions represented by a structured and compact motion representation, i.e., neural key point trajectories. The canonical 3D Gaussians are then driven by these key points and fused to model the geometry and appearance. During inference time with learned latent space, we can instantly sample diverse 3D motions in a single-forward pass and support several interesting applications including 3D motion interpolation and language-guided motion generation. Our project page is available at https://linzhanm.github.io/dimo.
- Abstract(参考訳): 一つの画像から任意の物体に対して多種多様な3次元運動を生成できるDIMOを提案する。
私たちの研究の中核となる考え方は、十分に訓練されたビデオモデルにおけるリッチな事前情報を活用して、共通の動きパターンを抽出し、それらを共有された低次元の潜在空間に埋め込むことです。
具体的には、まず、異なる動きを持つ同じ物体の複数のビデオを生成する。
次に、各動きを潜伏ベクトルに埋め込み、共有運動デコーダを訓練し、構造化されたコンパクトな動き表現、すなわちニューラルキーポイントトラジェクトリで表される動きの分布を学習する。
標準3Dガウスはこれらのキーポイントによって駆動され、幾何学と外観をモデル化するために融合される。
学習した潜伏空間での推論時間において、一方向通過で多様な3次元運動を即座にサンプリングすることができ、3次元運動補間や言語誘導運動生成など、いくつかの興味深い応用を支援することができる。
プロジェクトのページはhttps://linzhanm.github.io/dimo.comで公開されている。
関連論文リスト
- MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps [31.864441290577545]
本稿では,実世界の映像から意味的かつ機能的に意味のある3D動画を学習する上での課題について論じる。
既存の生成画像モデルから生成可能な3次元シーン動作のための画素対応モーションマップ表現を提案する。
論文 参考訳(メタデータ) (2025-10-13T07:56:19Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [63.68181731564576]
Inbetween-2-4Dという,2枚のシングルビュー画像を補間する4次元(つまり3D + モーション)の生成問題を提案する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - Recovering Dynamic 3D Sketches from Videos [30.87733869892925]
Liv3Strokeは、変形可能な3Dストロークで動作中のオブジェクトを抽象化する新しいアプローチである。
まず,映像フレームから3Dポイント・クラウド・モーション・ガイダンスを意味的特徴を用いて抽出する。
提案手法は, 自然な3次元表現の集合として本質的な運動特徴を抽象化する曲線の集合を変形する。
論文 参考訳(メタデータ) (2025-03-26T08:43:21Z) - Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization [9.231848716070257]
ATOP(Articulate That Object Part)は、静的な3Dオブジェクトを明瞭化するためのモーションパーソナライゼーションに基づく、新しい数ショット方式である。
提案手法は,現実的な動画を生成し,より正確で一般化可能な3次元動作パラメータを予測できることを示す。
論文 参考訳(メタデータ) (2025-02-11T05:47:16Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。