Fugu-MT 論文翻訳(概要): MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

論文の概要: MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

arxiv url: http://arxiv.org/abs/2310.14729v3
Date: Sun, 24 Mar 2024 15:11:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 02:35:50.937479
Title: MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
Title（参考訳）: MAS:2次元拡散を用いた3次元モーション生成のためのマルチビューアンセストラルサンプリング
Authors: Roy Kapon, Guy Tevet, Daniel Cohen-Or, Amit H. Bermano,
Abstract要約: 本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。 MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
参考スコア（独自算出の注目度）: 57.90404618420159
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce Multi-view Ancestral Sampling (MAS), a method for 3D motion generation, using 2D diffusion models that were trained on motions obtained from in-the-wild videos. As such, MAS opens opportunities to exciting and diverse fields of motion previously under-explored as 3D data is scarce and hard to collect. MAS works by simultaneously denoising multiple 2D motion sequences representing different views of the same 3D motion. It ensures consistency across all views at each diffusion step by combining the individual generations into a unified 3D sequence, and projecting it back to the original views. We demonstrate MAS on 2D pose data acquired from videos depicting professional basketball maneuvers, rhythmic gymnastic performances featuring a ball apparatus, and horse races. In each of these domains, 3D motion capture is arduous, and yet, MAS generates diverse and realistic 3D sequences. Unlike the Score Distillation approach, which optimizes each sample by repeatedly applying small fixes, our method uses a sampling process that was constructed for the diffusion framework. As we demonstrate, MAS avoids common issues such as out-of-domain sampling and mode-collapse. https://guytevet.github.io/mas-page/
Abstract（参考訳）: In-the-wildビデオから得られた動きに基づいて訓練された2次元拡散モデルを用いて、3次元モーション生成の手法であるMulti-view Ancestral Smpling (MAS)を導入する。そのため、MASは3Dデータが乏しく収集が難しいため、これまで探索されていない、エキサイティングで多様な動きの場に機会を開放する。 MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。個々の世代を統一された3Dシーケンスに組み合わせ、元のビューに投影することで、各拡散ステップにおけるすべてのビューの一貫性を保証する。プロバスケットボールの操り方、ボール装置を備えた体操のリズミカルパフォーマンス、競馬の映像から得られた2Dポーズデータを用いてMASを実演する。それぞれの領域において、3Dモーションキャプチャは困難であるが、MASは多種多様なリアルな3Dシーケンスを生成する。小修正を繰り返し適用することで各試料を最適化するスコア蒸留法とは異なり,本手法は拡散フレームワークのために構築されたサンプリングプロセスを使用する。示すように、MASはドメイン外サンプリングやモード崩壊といった一般的な問題を避けます。 https://guytevet.github.io/mas-page/

関連論文リスト

UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文参考訳（メタデータ） (2025-12-03T16:03:18Z)
DIMO: Diverse 3D Motion Generation for Arbitrary Objects [57.14954351767432]
DIMOは、単一の画像から任意のオブジェクトに対して多様な3Dモーションを生成することができる生成的アプローチである。我々は、よく訓練されたビデオモデルにおけるリッチな事前情報を利用して、共通の動きパターンを抽出する。学習した潜時空間での推論時間の間、単方向パスで様々な3次元運動を瞬時にサンプリングすることができる。
論文参考訳（メタデータ） (2025-11-10T18:56:49Z)
DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文参考訳（メタデータ） (2025-06-21T12:51:34Z)
Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos [71.24593306228145]
本研究では,2次元モデルから層状放射場への運動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
論文参考訳（メタデータ） (2025-06-05T19:46:48Z)
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文参考訳（メタデータ） (2025-04-11T09:01:09Z)
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。 3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文参考訳（メタデータ） (2024-12-10T18:55:13Z)
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T05:35:57Z)
LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文参考訳（メタデータ） (2024-04-13T11:07:53Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文参考訳（メタデータ） (2024-03-11T14:03:36Z)
Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ) 拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。 CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文参考訳（メタデータ） (2023-12-18T07:44:40Z)
MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。 2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文参考訳（メタデータ） (2023-08-31T07:49:06Z)
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文参考訳（メタデータ） (2023-06-07T17:47:50Z)
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。 FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文参考訳（メタデータ） (2022-11-17T20:17:04Z)
Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文参考訳（メタデータ） (2021-11-15T16:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。