論文の概要: In-2-4D: Inbetweening from Two Single-View Images to 4D Generation
- arxiv url: http://arxiv.org/abs/2504.08366v1
- Date: Fri, 11 Apr 2025 09:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:03.998393
- Title: In-2-4D: Inbetweening from Two Single-View Images to 4D Generation
- Title(参考訳): In-2-4D:2つのシングルビュー画像から4次元生成へ
- Authors: Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri,
- Abstract要約: 最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
- 参考スコア(独自算出の注目度): 54.62824686338408
- License:
- Abstract: We propose a new problem, In-2-4D, for generative 4D (i.e., 3D + motion) inbetweening from a minimalistic input setting: two single-view images capturing an object in two distinct motion states. Given two images representing the start and end states of an object in motion, our goal is to generate and reconstruct the motion in 4D. We utilize a video interpolation model to predict the motion, but large frame-to-frame motions can lead to ambiguous interpretations. To overcome this, we employ a hierarchical approach to identify keyframes that are visually close to the input states and show significant motion, then generate smooth fragments between them. For each fragment, we construct the 3D representation of the keyframe using Gaussian Splatting. The temporal frames within the fragment guide the motion, enabling their transformation into dynamic Gaussians through a deformation field. To improve temporal consistency and refine 3D motion, we expand the self-attention of multi-view diffusion across timesteps and apply rigid transformation regularization. Finally, we merge the independently generated 3D motion segments by interpolating boundary deformation fields and optimizing them to align with the guiding video, ensuring smooth and flicker-free transitions. Through extensive qualitative and quantitiave experiments as well as a user study, we show the effectiveness of our method and its components. The project page is available at https://in-2-4d.github.io/
- Abstract(参考訳): 物体を2つの異なる運動状態で撮影する2つの単一視点画像(In-2-4D)を最小限の入力設定から独立して生成する4D(すなわち3D + Motion)に対して提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
我々は動画補間モデルを用いて動きを予測するが、フレーム間の大きな動きは曖昧な解釈につながる可能性がある。
これを解決するために、我々は、入力状態に視覚的に近いキーフレームを識別し、重要な動きを示し、その間のスムーズな断片を生成する階層的なアプローチを採用した。
各フラグメントに対して、ガウススプラッティングを用いて鍵フレームの3次元表現を構築する。
フラグメント内の時間フレームは運動を誘導し、変形場を通して動的ガウスへの変換を可能にする。
時間的整合性の向上と3次元運動の洗練を目的として,時間経過をまたいだ多視点拡散の自己アテンションを拡大し,剛性変換正則化を適用した。
最後に, 境界変形場を補間し, ガイド映像に合わせるように最適化することにより, 独立に生成された3次元運動セグメントをマージし, 滑らかかつフリックフリーな遷移を保証する。
定性的かつ定量的な実験とユーザスタディを通じて,本手法とその構成要素の有効性を示す。
プロジェクトページはhttps://in-2-4d.github.io/で公開されている。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z) - Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions [18.47978862083129]
ビデオフレームは、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
いくつかの古い研究は、ビデオフレーム間のピクセルごとの線形運動を仮定することでこの問題に対処した。
本稿では,使用すべき動作モデルを適応的に選択可能な時空間畳み込みネットワークを用いて,画素あたりの動きを近似することを提案する。
論文 参考訳(メタデータ) (2022-01-27T09:49:23Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。