論文の概要: MORPHOS: Autoregressive 4D Generation with Temporal Structured Latents
- arxiv url: http://arxiv.org/abs/2606.02491v1
- Date: Mon, 01 Jun 2026 17:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.521852
- Title: MORPHOS: Autoregressive 4D Generation with Temporal Structured Latents
- Title(参考訳): MORPHOS: 時間構造型潜伏剤を用いた自己回帰型4D生成
- Authors: Minkyung Kwon, Jinhyeok Choi, Youngjin Shin, Jaeyeong Kim, JongMin Lee, Seungryong Kim,
- Abstract要約: MORPHOSはビデオから動的3Dアセットを多種多様な表現で生成する新しい自己回帰フレームワークである。
我々は、時間次元に沿って幾何学と外観を共同で符号化する統合された4次元表現であるT-SLAT(Temporal Structured Latents)を導入する。
- 参考スコア(独自算出の注目度): 35.76764167284739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MORPHOS, a novel autoregressive framework that generates dynamic 3D assets from videos across diverse representations, including meshes, 3D Gaussians, and radiance fields. Existing methods are typically limited to a single representation, struggle to model topological changes, or fail to maintain temporal consistency over long videos. To address these limitations, we introduce the Temporal Structured Latents (T-SLAT), a unified 4D representation that jointly encodes geometry and appearance along the temporal dimension. Leveraging T-SLAT, MORPHOS autoregressively generates dynamic 3D assets via causal attention, conditioning each frame on its preceding history to ensure temporal consistency while handling evolving topologies. We also propose a temporal-structural augmentation to mitigate error accumulation in autoregressive generation. MORPHOS achieves state-of-the-art performance in appearance and competitive results in geometry across multiple benchmarks, demonstrating superior generalization across various representations and robustness in long-horizon generation.
- Abstract(参考訳): MORPHOSは,メッシュ,3Dガウス,放射場など多種多様な映像から動的3Dアセットを生成する,新しい自己回帰フレームワークである。
既存の手法は通常、単一の表現に限られ、トポロジカルな変化をモデル化するのに苦労する。
これらの制約に対処するため、時間次元に沿って幾何学と外観を結合的に符号化する統合された4次元表現であるT-SLAT(Temporal Structured Latents)を導入する。
T-SLATを活用して、MORPHOSは因果的注意を通じて動的3Dアセットを自動回帰的に生成し、進化するトポロジを扱いながら時間的一貫性を確保する。
また,自己回帰生成における誤り蓄積を軽減するための時間構造拡張を提案する。
MORPHOSは、複数のベンチマークにまたがる幾何における外観上の最先端のパフォーマンスと競争的な結果を実現し、様々な表現にまたがる優れた一般化と長期水平生成の堅牢性を示す。
関連論文リスト
- GeoRect4D: Geometry-Compatible Generative Rectification for Dynamic Sparse-View 3D Reconstruction [16.448484686109992]
マルチビュービデオからダイナミックな3Dシーンを再構築することは、しばしば幾何学的な崩壊、軌道のドリフト、浮き彫りのアーティファクトに繋がる、非常に不適切である。
最近の試みでは、欠落したコンテンツに幻覚を与える遺伝子前駆体を導入しているが、ナイーブな統合はしばしば構造的ドリフトと時間的不整合を引き起こす。
そこで本稿では, 疎視動的再構成のための新しい統合フレームワークであるGeoRect4Dを提案する。
論文 参考訳(メタデータ) (2026-04-22T17:12:02Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction [25.630452373274636]
OccTENS (OccTENS) は、制御可能な、高忠実な長期の占有率生成を可能にする、世代的占有率の世界モデルである。
我々は、占領世界モデルを時間的次規模予測(TENS)タスクとして再構成する。
OccTENSは、高い占有率と高速な推論時間の両方で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-09-04T05:06:47Z) - STDR: Spatio-Temporal Decoupling for Real-Time Dynamic Scene Rendering [15.873329633980015]
既存の3DGSに基づく動的再構成法は、しばしばtextbfSTDR(リアルタイムレンダリングのための空間結合デテンポラル)に悩まされる
実時間レンダリングのためのテキストbfSTDR (Spatio-coupling DeTemporal for Real-time rendering) を提案する。
論文 参考訳(メタデータ) (2025-05-28T14:26:41Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,ビデオ中の3次元ポーズ推定のためのS-Temporal GraphFormerフレームワーク(STGFormer)を提案する。
まず,人体固有のグラフ分布をより効果的に活用するためのSTGアテンション機構を導入する。
次に、時間次元と空間次元を独立に並列に処理するための変調ホップワイド正規GCNを提案する。
最後に,Human3.6MおよびMPIINF-3DHPデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs [65.18780403244178]
動的グラフニューラル正規微分方程式(MTGODE)を用いた多変量時系列予測連続モデルを提案する。
具体的には、まず、時間進化するノードの特徴と未知のグラフ構造を持つ動的グラフに多変量時系列を抽象化する。
そして、欠落したグラフトポロジを補完し、空間的および時間的メッセージパッシングを統一するために、ニューラルODEを設計、解決する。
論文 参考訳(メタデータ) (2022-02-17T02:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。