論文の概要: Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2508.07908v2
- Date: Tue, 12 Aug 2025 11:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.425465
- Title: Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction
- Title(参考訳): Mem4D:動的シーン再構成のための静的メモリと動的メモリの分離
- Authors: Xudong Cai, Shuo Wang, Peng Wang, Yongcai Wang, Zhaoxin Fan, Wanting Li, Tianbao Zhang, Jianrong Tao, Yeying Jin, Deying Li,
- Abstract要約: 静的幾何学と動的運動のモデリングを分離する新しいフレームワークを提案する。
Mem4Dは、グローバルな整合性を持つ静的幾何学を同時に維持し、高忠実度で動的要素を再構成する。
- 参考スコア(独自算出の注目度): 17.587320705104343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dense geometry for dynamic scenes from a monocular video is a critical yet challenging task. Recent memory-based methods enable efficient online reconstruction, but they fundamentally suffer from a Memory Demand Dilemma: The memory representation faces an inherent conflict between the long-term stability required for static structures and the rapid, high-fidelity detail retention needed for dynamic motion. This conflict forces existing methods into a compromise, leading to either geometric drift in static structures or blurred, inaccurate reconstructions of dynamic objects. To address this dilemma, we propose Mem4D, a novel framework that decouples the modeling of static geometry and dynamic motion. Guided by this insight, we design a dual-memory architecture: 1) The Transient Dynamics Memory (TDM) focuses on capturing high-frequency motion details from recent frames, enabling accurate and fine-grained modeling of dynamic content; 2) The Persistent Structure Memory (PSM) compresses and preserves long-term spatial information, ensuring global consistency and drift-free reconstruction for static elements. By alternating queries to these specialized memories, Mem4D simultaneously maintains static geometry with global consistency and reconstructs dynamic elements with high fidelity. Experiments on challenging benchmarks demonstrate that our method achieves state-of-the-art or competitive performance while maintaining high efficiency. Codes will be publicly available.
- Abstract(参考訳): モノクロビデオからダイナミックなシーンの密度の高い幾何学を再構築することは、非常に難しい作業である。
メモリ表現は、静的構造に必要な長期的な安定性と、動的運動に必要な高速で高忠実な詳細保持との間に固有の矛盾に直面します。
この衝突は既存の手法を妥協させ、静的構造における幾何学的ドリフトや、動的物体の不正確な再構成をもたらす。
このジレンマに対処するために,静的幾何学と動的運動のモデリングを分離する新しいフレームワークであるMem4Dを提案する。
この洞察に導かれ、我々は二重メモリアーキテクチャを設計します。
1) トランジェント・ダイナミクス・メモリ(TDM)は、最近のフレームから高周波動作の詳細を捉え、動的コンテンツの正確かつきめ細かなモデリングを可能にする。
2)PSM(Persistent Structure Memory)は長期空間情報を圧縮保存し,静的要素のグローバルな一貫性とドリフトフリーな再構成を保証する。
これらの特別なメモリにクエリを交互にすることで、Mem4Dはグローバルな一貫性を持つ静的な幾何学を同時に維持し、高い忠実度で動的要素を再構築する。
試行錯誤試験により,本手法は高い効率を維持しつつ,最先端・競争性能を達成できることが実証された。
コードは公開されます。
関連論文リスト
- MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer [45.19539316971492]
MoReは、モノクロビデオから動的3Dシーンを効率よく回収するフィードフォワード4D再構成ネットワークである。
強力な静的再構築バックボーンを基盤として構築されたMoReは、静的構造から動的動作をアンタングルするために注意を強制する戦略を採用している。
複数のベンチマークの実験により、MoReは例外的な効率で高品質な動的再構成を実現することが示された。
論文 参考訳(メタデータ) (2026-03-05T11:51:07Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects [58.38338242973447]
OnlineSplatterは、RGBフレームから直接高品質でオブジェクト中心の3Dガウシアンを生成する新しいフレームワークである。
提案手法は,第1フレームを用いて再構成をアンカーし,高密度ガウス原始体を通して対象表現を漸進的に洗練する。
我々のコアコントリビューションは、潜伏した外見幾何学キーと明示的な方向キーを組み合わせたデュアルキーメモリモジュールです。
論文 参考訳(メタデータ) (2025-10-23T14:37:25Z) - SplitGaussian: Reconstructing Dynamic Scenes via Visual Geometry Decomposition [14.381223353489062]
textbfSplitGaussianは、シーン表現を静的および動的コンポーネントに明示的に分解する新しいフレームワークである。
SplitGaussianは、レンダリング品質、幾何学的安定性、動き分離において、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-06T09:00:13Z) - SDD-4DGS: Static-Dynamic Aware Decoupling in Gaussian Splatting for 4D Scene Reconstruction [21.822062121612166]
SDD-4DGSは、ガウススプラッティングに基づく4次元シーン再構成のための最初のフレームワークである。
提案手法は,ガウス再建パイプラインに自然に統合された確率論的動的知覚係数に基づく。
5つのベンチマークデータセットの実験により、SDD-4DGSは復元忠実度において最先端の手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-12T12:25:58Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [101.48581851337703]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。
動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。
提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes [31.783117836434403]
CD-NGPは、メモリオーバーヘッドを減らし、スケーラビリティを向上させる継続的学習フレームワークである。
トレーニングメモリ使用量は14GBに大幅に削減され、DyNeRFのストリーミング帯域幅はわずか0.4MBである。
論文 参考訳(メタデータ) (2024-09-08T17:35:48Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。