論文の概要: LIM: Large Interpolator Model for Dynamic Reconstruction
- arxiv url: http://arxiv.org/abs/2503.22537v1
- Date: Fri, 28 Mar 2025 15:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:21.088623
- Title: LIM: Large Interpolator Model for Dynamic Reconstruction
- Title(参考訳): LIM:動的再構成のための大規模補間器モデル
- Authors: Remy Sabathier, Niloy J. Mitra, David Novotny,
- Abstract要約: 既存の4D再構成手法は、カテゴリー特化モデルや遅い最適化手法によって制限されている。
本稿では,暗黙的な3次元表現を時間をかけて補間するトランスフォーマー・ベースのフィードフォワード・ソリューションであるLarge Interpolation Model(LIM)を提案する。
- 参考スコア(独自算出の注目度): 26.65191922949358
- License:
- Abstract: Reconstructing dynamic assets from video data is central to many in computer vision and graphics tasks. Existing 4D reconstruction approaches are limited by category-specific models or slow optimization-based methods. Inspired by the recent Large Reconstruction Model (LRM), we present the Large Interpolation Model (LIM), a transformer-based feed-forward solution, guided by a novel causal consistency loss, for interpolating implicit 3D representations across time. Given implicit 3D representations at times $t_0$ and $t_1$, LIM produces a deformed shape at any continuous time $t\in[t_0,t_1]$, delivering high-quality interpolated frames in seconds. Furthermore, LIM allows explicit mesh tracking across time, producing a consistently uv-textured mesh sequence ready for integration into existing production pipelines. We also use LIM, in conjunction with a diffusion-based multiview generator, to produce dynamic 4D reconstructions from monocular videos. We evaluate LIM on various dynamic datasets, benchmarking against image-space interpolation methods (e.g., FiLM) and direct triplane linear interpolation, and demonstrate clear advantages. In summary, LIM is the first feed-forward model capable of high-speed tracked 4D asset reconstruction across diverse categories.
- Abstract(参考訳): ビデオデータから動的アセットを再構築することは、コンピュータビジョンやグラフィックタスクにおいて、多くの人の中心である。
既存の4D再構成手法は、カテゴリー特化モデルや遅い最適化手法によって制限されている。
近年のLarge Restruction Model (LRM) に触発されて, 経時的に暗黙的な3D表現を補間するために, 新たな因果一貫性損失によって導かれる変圧器ベースのフィードフォワードソリューションであるLarge Interpolation Model (LIM) を提案する。
暗黙的な3D表現が$t_0$ および $t_1$ で与えられると、LIM は任意の連続時間 $t\in[t_0,t_1]$ で変形した形状を生成し、高品質な補間フレームを数秒で提供する。
さらに、LIMは時間にわたって明確なメッシュトラッキングを可能にし、既存の運用パイプラインに統合可能な、一貫したuv-texturedメッシュシーケンスを生成する。
また、拡散型マルチビュージェネレータとともにLIMを用いて、モノクロビデオから動的4次元再構成を生成する。
画像空間補間法 (例:FiLM) と直交平面線形補間法 (直交平面線形補間法) のベンチマークにより, 様々な動的データセット上でのLIMを評価し, 明確な利点を示した。
まとめると、LIMは様々なカテゴリーにまたがる高速な4Dアセット再構築が可能な最初のフィードフォワードモデルである。
関連論文リスト
- LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブ-オクタヘドラとテトラヘドラ-ボスに基づく2つの新しいシーン表現を導入する。
この定式化は、ダウンストリームアプリケーションのオーバーヘッドを最小限にする、標準メッシュベースのツールと自然に一致します。
再現精度を向上するためにプリミティブを減らしながら,最先端のボリューム手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-27T18:49:38Z) - Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly 4D Reconstruction [15.588032729272536]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度の高いガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,最速のオンザフライトレーニング,優れた表現品質,リアルタイムレンダリング能力を示す。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Dynamical Deep Generative Latent Modeling of 3D Skeletal Motion [15.359134407309726]
本モデルでは,高度に相関した骨格データを時間的変化の空間的基礎の集合に分解する。
これにより、3次元ポーズデータのダイナミックスにおいて意味のある内在状態を解析する動的深部生成潜在モデルが得られる。
論文 参考訳(メタデータ) (2021-06-18T23:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。