論文の概要: In-2-4D: Inbetweening from Two Single-View Images to 4D Generation
- arxiv url: http://arxiv.org/abs/2504.08366v3
- Date: Sat, 27 Sep 2025 07:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.891855
- Title: In-2-4D: Inbetweening from Two Single-View Images to 4D Generation
- Title(参考訳): In-2-4D:2つのシングルビュー画像から4次元生成へ
- Authors: Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri,
- Abstract要約: Inbetween-2-4Dという,2枚のシングルビュー画像を補間する4次元(つまり3D + モーション)の生成問題を提案する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
- 参考スコア(独自算出の注目度): 63.68181731564576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We pose a new problem, In-2-4D, for generative 4D (i.e., 3D + motion) inbetweening to interpolate two single-view images. In contrast to video/4D generation from only text or a single image, our interpolative task can leverage more precise motion control to better constrain the generation. Given two monocular RGB images representing the start and end states of an object in motion, our goal is to generate and reconstruct the motion in 4D, without making assumptions on the object category, motion type, length, or complexity. To handle such arbitrary and diverse motions, we utilize a foundational video interpolation model for motion prediction. However, large frame-to-frame motion gaps can lead to ambiguous interpretations. To this end, we employ a hierarchical approach to identify keyframes that are visually close to the input states while exhibiting significant motions, then generate smooth fragments between them. For each fragment, we construct a 3D representation of the keyframe using Gaussian Splatting (3DGS). The temporal frames within the fragment guide the motion, enabling their transformation into dynamic 3DGS through a deformation field. To improve temporal consistency and refine the 3D motion, we expand the self-attention of multi-view diffusion across timesteps and apply rigid transformation regularization. Finally, we merge the independently generated 3D motion segments by interpolating boundary deformation fields and optimizing them to align with the guiding video, ensuring smooth and flicker-free transitions. Through extensive qualitative and quantitive experiments as well as a user study, we demonstrate the effectiveness of our method and design choices.
- Abstract(参考訳): In-2-4Dという,2枚の単視点像を補間する4次元(つまり3D + モーション)の新規な問題を提起する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
動作中の物体の開始状態と終了状態を表す2つの単分子RGB画像が与えられた場合、我々のゴールは、物体のカテゴリ、動きの種類、長さ、複雑さを仮定することなく、4Dで動きを生成および再構成することである。
このような任意かつ多様な動きに対処するために,動作予測に基礎的ビデオ補間モデルを用いる。
しかし、フレーム間の大きな動きギャップは曖昧な解釈につながる可能性がある。
この目的のために、我々は、入力状態に視覚的に近いキーフレームを識別する階層的手法を用いて、重要な動きを示しながら、その間のスムーズな断片を生成する。
各フラグメントに対して、ガウススティング(3DGS)を用いてキーフレームの3次元表現を構築する。
フラグメント内の時間フレームは動きをガイドし、変形場を通して動的3DGSへ変換することができる。
時間的整合性の向上と3次元運動の高度化を目的として,時間経過をまたいだ多視点拡散の自己アテンションを拡張し,剛性変換正則化を適用した。
最後に, 境界変形場を補間し, ガイド映像に合わせるように最適化することにより, 独立に生成された3次元運動セグメントをマージし, 滑らかかつフリックフリーな遷移を保証する。
定性的かつ定量的な実験とユーザスタディを通じて,本手法の有効性と設計選択の有効性を実証する。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - MagicPose4D: Crafting Articulated Models with Appearance and Motion Control [17.161695123524563]
我々は4次元生成における外観と動きの制御を洗練させるフレームワークであるMagicPose4Dを提案する。
現行の4D生成方法とは異なり、MagicPose4Dはモーションプロンプトとしてモノクラービデオやメッシュシーケンスを受け入れる。
我々はMagicPose4Dが4Dコンテンツ生成の精度と一貫性を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-05-22T21:51:01Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z) - Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions [18.47978862083129]
ビデオフレームは、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
いくつかの古い研究は、ビデオフレーム間のピクセルごとの線形運動を仮定することでこの問題に対処した。
本稿では,使用すべき動作モデルを適応的に選択可能な時空間畳み込みネットワークを用いて,画素あたりの動きを近似することを提案する。
論文 参考訳(メタデータ) (2022-01-27T09:49:23Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。