論文の概要: MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
- arxiv url: http://arxiv.org/abs/2310.14729v3
- Date: Sun, 24 Mar 2024 15:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:35:50.937479
- Title: MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
- Title(参考訳): MAS:2次元拡散を用いた3次元モーション生成のためのマルチビューアンセストラルサンプリング
- Authors: Roy Kapon, Guy Tevet, Daniel Cohen-Or, Amit H. Bermano,
- Abstract要約: 本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
- 参考スコア(独自算出の注目度): 57.90404618420159
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Multi-view Ancestral Sampling (MAS), a method for 3D motion generation, using 2D diffusion models that were trained on motions obtained from in-the-wild videos. As such, MAS opens opportunities to exciting and diverse fields of motion previously under-explored as 3D data is scarce and hard to collect. MAS works by simultaneously denoising multiple 2D motion sequences representing different views of the same 3D motion. It ensures consistency across all views at each diffusion step by combining the individual generations into a unified 3D sequence, and projecting it back to the original views. We demonstrate MAS on 2D pose data acquired from videos depicting professional basketball maneuvers, rhythmic gymnastic performances featuring a ball apparatus, and horse races. In each of these domains, 3D motion capture is arduous, and yet, MAS generates diverse and realistic 3D sequences. Unlike the Score Distillation approach, which optimizes each sample by repeatedly applying small fixes, our method uses a sampling process that was constructed for the diffusion framework. As we demonstrate, MAS avoids common issues such as out-of-domain sampling and mode-collapse. https://guytevet.github.io/mas-page/
- Abstract(参考訳): In-the-wildビデオから得られた動きに基づいて訓練された2次元拡散モデルを用いて、3次元モーション生成の手法であるMulti-view Ancestral Smpling (MAS)を導入する。
そのため、MASは3Dデータが乏しく収集が難しいため、これまで探索されていない、エキサイティングで多様な動きの場に機会を開放する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
個々の世代を統一された3Dシーケンスに組み合わせ、元のビューに投影することで、各拡散ステップにおけるすべてのビューの一貫性を保証する。
プロバスケットボールの操り方、ボール装置を備えた体操のリズミカルパフォーマンス、競馬の映像から得られた2Dポーズデータを用いてMASを実演する。
それぞれの領域において、3Dモーションキャプチャは困難であるが、MASは多種多様なリアルな3Dシーケンスを生成する。
小修正を繰り返し適用することで各試料を最適化するスコア蒸留法とは異なり,本手法は拡散フレームワークのために構築されたサンプリングプロセスを使用する。
示すように、MASはドメイン外サンプリングやモード崩壊といった一般的な問題を避けます。
https://guytevet.github.io/mas-page/
関連論文リスト
- Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T05:35:57Z) - LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。
本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。
実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文 参考訳(メタデータ) (2024-04-13T11:07:53Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文 参考訳(メタデータ) (2023-08-31T07:49:06Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。