論文の概要: MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer
- arxiv url: http://arxiv.org/abs/2603.05078v1
- Date: Thu, 05 Mar 2026 11:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.210747
- Title: MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer
- Title(参考訳): MoRe: フィードフォワード4D再構成トランス
- Authors: Juntong Fang, Zequn Chen, Weiqi Zhang, Donglin Di, Xuancheng Zhang, Chengmin Yang, Yu-Shen Liu,
- Abstract要約: MoReは、モノクロビデオから動的3Dシーンを効率よく回収するフィードフォワード4D再構成ネットワークである。
強力な静的再構築バックボーンを基盤として構築されたMoReは、静的構造から動的動作をアンタングルするために注意を強制する戦略を採用している。
複数のベンチマークの実験により、MoReは例外的な効率で高品質な動的再構成を実現することが示された。
- 参考スコア(独自算出の注目度): 45.19539316971492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing dynamic 4D scenes remains challenging due to the presence of moving objects that corrupt camera pose estimation. Existing optimization methods alleviate this issue with additional supervision, but they are mostly computationally expensive and impractical in real-time applications. To address these limitations, we propose MoRe, a feedforward 4D reconstruction network that efficiently recovers dynamic 3D scenes from monocular videos. Built upon a strong static reconstruction backbone, MoRe employs an attention-forcing strategy to disentangle dynamic motion from static structure. To further enhance robustness, we fine-tune the model on large-scale, diverse datasets encompassing both dynamic and static scenes. Moreover, our grouped causal attention captures temporal dependencies and adapts to varying token lengths across frames, ensuring temporally coherent geometry reconstruction. Extensive experiments on multiple benchmarks demonstrate that MoRe achieves high-quality dynamic reconstructions with exceptional efficiency.
- Abstract(参考訳): 動的4Dシーンの再構築は、カメラの劣化が見積もる移動物体の存在のため、依然として困難である。
既存の最適化手法は、この問題をさらなる監視で緩和するが、主に計算コストが高く、リアルタイムアプリケーションでは実用的ではない。
これらの制約に対処するため,モノクロ映像から動的3Dシーンを効率よく復元するフィードフォワード4D再構成ネットワークであるMoReを提案する。
強力な静的再構築バックボーンを基盤として構築されたMoReは、静的構造から動的動作をアンタングルするために注意を強制する戦略を採用している。
さらにロバスト性を高めるため、動的シーンと静的シーンの両方を含む大規模で多様なデータセット上でモデルを微調整する。
さらに,グループ化された因果的注意は時間的依存を捉え,フレーム間のトークン長の変化に適応し,時間的コヒーレントな幾何学的再構築を確実にする。
複数のベンチマークでの大規模な実験により、MoReは例外的な効率で高品質な動的再構成を実現することが示された。
関連論文リスト
- Gaussian Sequences with Multi-Scale Dynamics for 4D Reconstruction from Monocular Casual Videos [7.422432435797114]
実世界の力学は、物体から粒子レベルへの多スケールの規則性を示す。
複雑な運動場を分解するマルチスケールダイナミックス機構を設計する。
本手法により,モノクロカジュアルビデオからの高精度で一貫した4次元再構成が可能となった。
論文 参考訳(メタデータ) (2026-02-14T14:30:25Z) - 4D Primitive-Mâché: Glueing Primitives for Persistent 4D Scene Reconstruction [28.50411933478524]
本稿では,カジュアルなモノクラーRGB映像を入力として受信し,シーンの持続的な再構成を出力する動的再構成システムを提案する。
言い換えれば、シーンの現在見える部分だけでなく、以前に見た部分もすべて再構成し、すべてのタイムステップで完全な再構築を再現できる。
論文 参考訳(メタデータ) (2025-12-18T14:06:15Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - PAGE-4D: Disentangled Pose and Geometry Estimation for 4D Perception [39.819707648812944]
PAGE-4Dはフィードフォワードモデルで、後処理なしでVGGTを動的シーンに拡張する。
ダイナミックス対応マスクを予測することで、静的および動的情報をアンタングルする。
実験の結果、PAGE-4Dは動的シナリオにおいて元のVGGTよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-20T14:17:16Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - D$^2$USt3R: Enhancing 3D Reconstruction for Dynamic Scenes [54.886845755635754]
本研究は動的シーンにおける3次元再構成の課題に対処し,物体の動きが従来の3次元ポイントマップ回帰法の品質を劣化させる。
空間的側面と時間的側面の両方を明示的に組み込むことにより,提案した点マップに対する3次元密度対応のカプセル化に成功した。
論文 参考訳(メタデータ) (2025-04-08T17:59:50Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [110.3924779333809]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - DRSM: efficient neural 4d decomposition for dynamic reconstruction in
stationary monocular cameras [21.07910546072467]
モノクロカメラにおける動的シーンの4次元分解問題に対処するための新しい枠組みを提案する。
本フレームワークでは,分解された静的・動的特徴面を用いて4次元シーンを表現し,高密度光線キャスティングによる動的領域の学習を強調する。
論文 参考訳(メタデータ) (2024-02-01T16:38:51Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。