論文の概要: Fast 4D Mesh Generation by Spatio-Temporal Attention Chains
- arxiv url: http://arxiv.org/abs/2605.19786v1
- Date: Tue, 19 May 2026 12:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.33893
- Title: Fast 4D Mesh Generation by Spatio-Temporal Attention Chains
- Title(参考訳): 時空間アテンションチェーンによる高速4次元メッシュ生成
- Authors: Dvir Samuel, Yuval Atzmon, Gal Chechik, Yoni Kasten,
- Abstract要約: 本研究では,時間的対応性を改善しつつ,4次元メッシュ生成を高速化する学習自由アプローチを提案する。
空間と時間にまたがって情報を伝達する、時空間注意連鎖と呼ばれる一般的なフレームワークを活用する。
最先端技術と比較すると,提案手法は9秒で4Dメッシュを生成し,高品質な結果が得られるとともに,13倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 46.88232446844325
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 4D mesh generation has recently emerged as a powerful paradigm for recovering dynamic 3D structure from videos, but existing methods remain slow, computationally expensive, and difficult to scale to longer sequences. We introduce a training-free approach that accelerates 4D mesh generation while improving temporal correspondence quality. Our key observation is that temporal correspondences emerge inside a 4D backbone long before its generated meshes become visually accurate. We exploit this with a general framework we call Spatio-Temporal Attention Chain which propagates information across space and time. Starting from vertices on an anchor mesh, the chain maps vertices to latent tokens. It then follows temporal correspondences in latent space, and recovers frame-specific vertices through latent-to-vertex attention. This design avoids expensive explicit matching while preserving anchor mesh details and thereby improving dynamic mesh geometry and temporal consistency. Compared to state-of-the-art, our method generates a 4D mesh in 9 seconds, achieving a $13\times$ speedup while producing higher-quality results. Moreover, our approach scales to videos up to $16\times$ longer without degrading mesh quality. Beyond generation, the improved correspondences enable competitive zero-shot performance on two downstream tasks: 2D object tracking and 4D tracking. We further show that our framework enables reliable camera estimation, a capability not supported by prior 4D mesh generation methods.
- Abstract(参考訳): 4Dメッシュ生成はビデオから動的3D構造を復元する強力なパラダイムとして最近登場したが、既存の手法は遅く、計算コストが高く、長いシーケンスにスケールすることが難しいままである。
本研究では,時間的対応性を改善しつつ,4次元メッシュ生成を高速化する学習自由アプローチを提案する。
我々の重要な観察は、生成したメッシュが視覚的に正確になるずっと前に、時間的対応が4Dバックボーン内に現れることである。
我々は、空間と時間にわたって情報を伝達する、時空間注意連鎖(Spatio-Temporal Attention Chain)と呼ばれる一般的なフレームワークでこれを活用します。
アンカーメッシュ上の頂点から始めて、チェーンは頂点を潜在トークンにマップする。
その後、ラテント空間における時間的対応に従い、ラテントから頂点への注意を通してフレーム固有の頂点を復元する。
この設計では、アンカーメッシュの詳細を保存しながら、高価な明示的なマッチングを回避し、ダイナミックメッシュの幾何学と時間的一貫性を改善している。
最先端技術と比較すると,提案手法は9秒で4Dメッシュを生成し,高品質な結果が得られるとともに,13\times$の高速化を実現している。
さらに、当社のアプローチでは、メッシュの品質を劣化させることなく、最大16\times$の動画にスケールアップしています。
世代を超えて、改良された対応により、2Dオブジェクトトラッキングと4Dトラッキングという2つの下流タスクにおいて、競争力のあるゼロショットのパフォーマンスを実現している。
さらに,従来の4Dメッシュ生成手法ではサポートされていない,信頼性の高いカメラ推定が可能であることを述べる。
関連論文リスト
- SS4D: Native 4D Generative Model via Structured Spacetime Latents [50.29500511908054]
モノクロビデオから直接動的3Dオブジェクトを合成する,ネイティブな4D生成モデルであるSS4Dを提案する。
発電機を4Dデータで直接訓練し、高忠実度、時間的コヒーレンス、構造的整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T10:45:06Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation [57.199352741915625]
本稿では,任意の3Dメッシュの効率的なテキスト駆動アニメーションを可能にする最初のフィードフォワードフレームワークであるAnimateAnyMeshを紹介する。
我々のアプローチは、動的メッシュシーケンスを効果的に圧縮し再構成する新しいDyMeshVAEアーキテクチャを活用する。
また、DyMeshデータセットにもコントリビュートし、テキストアノテーション付き4M以上の動的メッシュシーケンスを格納しています。
論文 参考訳(メタデータ) (2025-06-11T17:55:16Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。